Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de...

77
III J ORNADAS DE U SUARIOS DE R 17 Y 18 DE N OVIEMBRE DE 2011 EOI - M ADRID L IBRO DE R ESÚMENES C OMITÉS ORGANIZADOR Y C IENTÍFICO 22 DE NOVIEMBRE DE 2011

Transcript of Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de...

Page 1: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

III JORNADAS DE USUARIOS DE R17 Y 18 DE NOVIEMBRE DE 2011

EOI - MADRIDLIBRO DE RESUacuteMENES

COMITEacuteS ORGANIZADOR Y CIENTIacuteFICO

22 DE NOVIEMBRE DE 2011

copy 2011 Organizacioacuten de las III Jornadas de Usuarios de R

Esta obra estaacute bajo una licencia Reconocimiento-No comercial-Compartir bajo lamisma licencia 30 Espantildea de Creative Commons Para ver una copia de esta licenciavisitehttpcreativecommonsorglicensesby-nc-sa30eslegalcodees

Usted es libre de copiar distribuir y comunicar puacuteblicamente la obra y hacer obrasderivadas bajo las condiciones siguientes

Reconocimiento Debe reconocer los creacuteditos de la obra de la manera especi-ficada por el autor o el licenciador (pero no de una manera que sugiera que tienesu apoyo o apoyan el uso que hace de su obra)

No comercial No puede utilizar esta obra para fines comerciales

Compartir bajo la misma licencia Si altera o transforma esta obra o gene-ra una obra derivada soacutelo puede distribuir la obra generada bajo una licenciaideacutentica a eacutesta

Al reutilizar o distribuir la obra tiene que dejar bien claro los teacuterminos de la licenciade esta obra Alguna de estas condiciones puede no aplicarse si se obtiene el permisodel titular de los derechos de autor Nada en esta licencia menoscaba o restringe losderechos morales del autor

I

Iacutendice general

Iacutendice general III

Informacioacuten General IX

Descripcioacuten X

Informacioacuten uacutetil XI

Comiteacute cientiacutefico XIII

Comiteacute organizador XIV

Patrocinadores XV

Programa XVI

I Biostatnet 1

1 An R Package for the inference in a multi-state illness-death model 2Luiacutes Meira-Machado

Department of Mathematics and Applications University of Minho Portugal

2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos 3Viacutector Urrea Gales y M Luz Calle

Dept Biologiacutea de Sistemas Universitat de Vic

3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicacio-nes mediante las opciones graacuteficas de R 4

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

III

IacuteNDICE GENERAL

4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival 5Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)

Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Barce-lona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i Investigacioacute Ope-rativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

5 FluDetWeb an interactive web-based system for the early detection of theonset of influenza epidemics 6

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas 7

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Estadiacutes-tica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

7 Paquete de R ldquoalteredExpressionrdquo algoritmo para localizar genes con perfilde expresioacuten alterado por una enfermedad 8

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

8 ROCRegression un paquete en R para la incorporacioacuten de covariables enel anaacutelisis ROC 9

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santia-go de Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

9 Un paquete de R para analizar interacciones factor por curva 10Marta Sestelo Nora M Villanueva Javier Roca Pardintildeas

Universidade de Vigo

10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genescon datos de supervivencia en un estudio GWAS 11

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

IV

Iacutendice general

II Ambiental Espacial Miscelaacutenea 13

11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la inves-tigacioacuten avanzada 14

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacutensolar terrestre (SIAR) y satelital (CM-SAF) 15

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

13 Datos geograacuteficos de tipo raster en R 17Jacob van Etten (IE Universidad)

Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica 18

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

15 solaR geometriacutea radiacioacuten y energiacutea solar en R 20Oscar Perpintildeaacuten Lamigueiro

Universidad Politeacutecnica de Madrid

16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutesticoen R y Comparacioacuten Geoestadiacutestica entre Arcgis y R 22

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional de Co-lombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional deColombia)

17 Psicometriacutea avanzada con R a partir de datos de personalidad en ldquomyPer-sonalityrdquo 23

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

V

IacuteNDICE GENERAL

IIIAnaacutelisis de Datos Empresa 24

18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida enel Trabajo 25

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basadoen distancias utilizando R 26

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colombia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal 27Joseacute Luis Cantildeadas Reche e Irene Palacios Brihuega

IESA-CSIC

21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R 28M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-

chuca y MarianoJ Valderrama BonnetUniversidad de Granada

22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntosmuacuteltiples 29

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad deSalamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salamanca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Salaman-ca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de CoimbraPortugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacuten delCaacutencer Universidad de Salamanca)

23 MMLM Una funcioacuten para construir modelos predictivos con mayor capa-cidad de discriminacioacuten 31

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Uni-versidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

VI

Iacutendice general

24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolvien-do problemas de la Biologiacutea Molecular 32

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

IVWeb Informes Calidad 34

25 Brew o coacutemo mezclar R y texto para generar informes repetitivos 35Xavier Guardiola Martiacutenez

Simpple - Xarxa Santa Tecla

26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Uni-versidad 36

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

27 Informes automatizados con Estadiacutestica univariante y bivariante 37Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez Goacutemez

Unidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

28 Calidad Seis Sigma con R Competitividad e Innovacioacuten 38Emilio Loacutepez Cano Andreacutes Redchuk y Javier M Moguerza

Universidad Rey Juan Carlos

29 Anaacutelisis de comunidades virtuales con R 40Joseacute Felipe Ortega Soto

Libresoft Univ Rey Juan Carlos

30 Cloudnumbers R en la nube 41Carlos Gil Bellosta

datanalytics

31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles paraprogramas en R 42

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

V Metodologiacutea Miscelaacutenea 44

32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R 45Andres Sanz Garcia (Universidad de La Rioja)

Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

VII

IacuteNDICE GENERAL

33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada 46Jorge Luis Ojeda Cabrera

Universidad de Zaragoza

34 KDSeries Una libreriacutea destinada destinada al tratamiento de series tempo-rales en R 47

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada 48Luis Cayuela

Universidad Rey Juan Carlos

36 Adabag 20 una libreria de R para adaboostm1 y bagging 49Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea Rubio

Universidad de Castilla-La Mancha

37 Dating Business Cycle with R 50Ricardo Queralt

Dpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Net-work) 51

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

39 Nomogramas con R 52Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Uni-

versidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

VIConcurso Nestoria 53

40 Mapas temaacuteticos a tiempo real 54Sabarich Raquel

Autores e Instituciones 56

Iacutendice de autores 57

Iacutendice de Instituciones 59

VIII

Informacioacuten General

IX

Descripcioacuten

Las III Jornadas de Usuarios de R tendraacuten lugar en la Escuela de OrganizacioacutenIndustrial en Madrid los diacuteas 17 y 18 de noviembre de 2011 Las jornadas son el reflejode la importancia creciente de R en diversas aacutereas y disciplinas tanto en la universidadcomo fuera de ella Estaacuten abiertas a usuarios y entusiastas de R independientementede su filiacioacuten o aacuterea de intereacutes

De ahiacute que su objetivo sea

Proporcionar un punto de encuentro a los usuarios de R

Fomentar la colaboracioacuten entre ellos en un ambiente multidisciplinar

Divulgar el conocimiento del lenguaje y sus posibilidades

Promover el uso de R

Las jornadas constan de las siguientes partes

Ponencias invitadas

Presentaciones de usuarios de R que reflejen en amplio rango de en que se estaacuteusando R para analizar datos

Sesiones de poacutesters

Talleres

X

Informacioacuten uacutetil

TalleresLos participantes a los talleres deben traer su propio ordenador portaacutetil con las

herramientas que indiquen los responsables de talleres La inscripcioacuten de los talleres serealizaraacute durante la recepcioacuten Dado el limitado nuacutemero de plazas se reservaraacute plazapor orden de inscripcioacuten La ubicacioacuten de los talleres se haraacute en las siguientes aulas

Aula 16 (o aula de informaacutetica) Situada en la planta 0 (entrada de la EOI) A laderecha del saloacuten de actos sale un pasillo y a pocos pasos comienza otro pasillo ala izquierda (zona de Labs) Este segundo pasillo gira a la derecha hasta llegar alaula 16 con puerta blanca y sin etiquetar

Aula 17 (cercana a la biblioteca) La biblioteca estaacute situada en la planta 1 En laplanta 0 a la derecha del saloacuten de actos sale un pasillo desde el que comienzanunas escaleras de subida Al llegar a la planta 1 sale de frente un pasillo queconduce a la biblioteca Al llegar a la misma a la derecha hay un espacio conmesas y sillas que conecta con este aula (al final a la derecha)

Aulas 24 y 25 Situadas en la planta 2 En la planta 0 a la derecha del saloacuten deactos sale un pasillo desde el que comienzan unas escaleras de subida Al llegara la planta 2 empieza un pasillo a la izquierda En este pasillo estaacuten ubicadas lasdos aulas una a continuacioacuten de otra

CertificadosLos certificados se enviaraacuten por correo electroacutenico una vez pasadas las Jornadas

MaterialTodo el material incluyendo la propuesta de Estatutos estaacute disponible a traveacutes de

la paacutegina web de las Jornadas (httpusarorges) No se entregaraacute documentacioacutenadicional

XI

INFORMACIOacuteN UacuteTIL

WifiEn todo el edificio de la EOI se dispone de acceso abierto a una red wifi llamada

EOI-libre No requiere el uso de software especiacutefico ni alta inicial No habraacute disponibi-lidad de una sala de ordenadores

Espacios de encuentroDestacan tres zonas

La cafeteriacutea situada en la planta -1 En la planta 0 a la izquierda empieza unpasillo que termina en unas escaleras Bajando se llega a la cafeteriacutea

Los jardines que rodean todo el edificio Las previsiones meteoroloacutegicas para jue-ves y viernes indican cielos nublados pero baja probabilidad de lluvia con tem-peraturas maacuteximas inferiores a los 15ordmC

La sala adjunta a la biblioteca (ver indicaciones en Talleres aula 17) con mesasy sillas sillones y maacutequinas de refrescos y aperitivos

Lugares para comer y cenarAdemaacutes de la cafeteriacutea de la EOI el sitio maacutes cercano es el Cafeacute Glaceacute donde seraacute

la cena Todo lo que hay alrededor son colegios mayores institutos de investigacioacutenrectorado de la UPM etc Para encontrar maacutes sitios hay que salir de la zona de Metro-politano y subir hacia Reina Victoria (unos 10 minutos andando en cuesta)

XII

Comiteacute cientiacutefico

Ramoacuten Diacuteaz Uriarte

Virgilio Goacutemez Rubio

Juan R Gonzaacutelez

Manuel Muntildeoz Maacuterquez

Oscar Perpintildeaacuten Lamigueiro

Miguel Aacutengel Rodriacuteguez Muiacutentildeos

Gregorio R Serrano

XIII

Comiteacute organizador

Luis Mariano Esteban

Juan Jose Gibaja

Carlos J Gil Bellosta

Oscar Perpintildeaacuten Lamigueiro

Emilio Torres Manzanera

Secretariacutea TeacutecnicaTania Iglesias Cabo

Patricia Diaz

XIV

Patrocinadores

XV

Programa

JUEVES 17 DE NOVIEMBRE

bull 0900-0930 Recepcioacutenbull 0930-1000 Inauguracioacuten oficial de las Jornadas Tiacutescar Lara Vicedecana de Cultura Digital de la EOI Carlos J Gil Bellosta Comunidad de usuaRios

bull 1000-1100 Conferencia plenaria R paralelizacioacuten datos masivos y aplica-ciones web ejemplos del uso de R en bioinformaacutetica (Ramoacuten Diacuteaz Uriarte)(pdf)

bull 1100-1130 Descansobull 1130-1330 Mesa 1 Biostatnetbull 1330-1500 Descansobull 1500-1700 Mesa 2 Ambiental Espacial Miscelaacuteneabull 1500-1700 Talleres Estadiacutestica baacutesica en R con herramientas graacuteficas (Manuel Muntildeoz) Construccioacuten de paquetes (Juan Ramoacuten Gonzaacutelez)

bull 1700-1730 Descansobull 1730-1930 Mesa 3 Anaacutelisis de Datos Empresabull 1930-2030 Asamblea General y Constituyente de la Comunidad de Usua-

riosbull 2130 Cena

VIERNES 18 DE NOVIEMBRE

bull 1000-1200 Mesa 4 Web Informes Calidadbull 1200-1230 Descansobull 1230-1430 Mesa 5 Metodologiacutea Miscelaacuteneabull 1230-1430 Talleres Anaacutelisis de datos espacio-temporales con R (Virgilio Goacutemez) Preparacioacuten de informes perioacutedicos con R y Sweave (Gregorio Serrano) Crea interfaces Web 20 en R con software libre LAMP+Tiki+PluginR

(Xavier de Pedro)bull 1430-1445 Concurso Nestoria ponencia y entrega de premiosbull 1445-1500 Clausura Oficial de las Jornadas

XVI

Parte I

Biostatnet

UNA NUEVA RED INTERDISCIPLINAR DE BIOESTADIacuteSTICA (pdf)

Miguel Angel Rodriacuteguez Muiacutentildeos

1

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 2: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

copy 2011 Organizacioacuten de las III Jornadas de Usuarios de R

Esta obra estaacute bajo una licencia Reconocimiento-No comercial-Compartir bajo lamisma licencia 30 Espantildea de Creative Commons Para ver una copia de esta licenciavisitehttpcreativecommonsorglicensesby-nc-sa30eslegalcodees

Usted es libre de copiar distribuir y comunicar puacuteblicamente la obra y hacer obrasderivadas bajo las condiciones siguientes

Reconocimiento Debe reconocer los creacuteditos de la obra de la manera especi-ficada por el autor o el licenciador (pero no de una manera que sugiera que tienesu apoyo o apoyan el uso que hace de su obra)

No comercial No puede utilizar esta obra para fines comerciales

Compartir bajo la misma licencia Si altera o transforma esta obra o gene-ra una obra derivada soacutelo puede distribuir la obra generada bajo una licenciaideacutentica a eacutesta

Al reutilizar o distribuir la obra tiene que dejar bien claro los teacuterminos de la licenciade esta obra Alguna de estas condiciones puede no aplicarse si se obtiene el permisodel titular de los derechos de autor Nada en esta licencia menoscaba o restringe losderechos morales del autor

I

Iacutendice general

Iacutendice general III

Informacioacuten General IX

Descripcioacuten X

Informacioacuten uacutetil XI

Comiteacute cientiacutefico XIII

Comiteacute organizador XIV

Patrocinadores XV

Programa XVI

I Biostatnet 1

1 An R Package for the inference in a multi-state illness-death model 2Luiacutes Meira-Machado

Department of Mathematics and Applications University of Minho Portugal

2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos 3Viacutector Urrea Gales y M Luz Calle

Dept Biologiacutea de Sistemas Universitat de Vic

3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicacio-nes mediante las opciones graacuteficas de R 4

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

III

IacuteNDICE GENERAL

4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival 5Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)

Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Barce-lona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i Investigacioacute Ope-rativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

5 FluDetWeb an interactive web-based system for the early detection of theonset of influenza epidemics 6

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas 7

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Estadiacutes-tica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

7 Paquete de R ldquoalteredExpressionrdquo algoritmo para localizar genes con perfilde expresioacuten alterado por una enfermedad 8

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

8 ROCRegression un paquete en R para la incorporacioacuten de covariables enel anaacutelisis ROC 9

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santia-go de Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

9 Un paquete de R para analizar interacciones factor por curva 10Marta Sestelo Nora M Villanueva Javier Roca Pardintildeas

Universidade de Vigo

10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genescon datos de supervivencia en un estudio GWAS 11

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

IV

Iacutendice general

II Ambiental Espacial Miscelaacutenea 13

11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la inves-tigacioacuten avanzada 14

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacutensolar terrestre (SIAR) y satelital (CM-SAF) 15

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

13 Datos geograacuteficos de tipo raster en R 17Jacob van Etten (IE Universidad)

Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica 18

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

15 solaR geometriacutea radiacioacuten y energiacutea solar en R 20Oscar Perpintildeaacuten Lamigueiro

Universidad Politeacutecnica de Madrid

16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutesticoen R y Comparacioacuten Geoestadiacutestica entre Arcgis y R 22

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional de Co-lombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional deColombia)

17 Psicometriacutea avanzada con R a partir de datos de personalidad en ldquomyPer-sonalityrdquo 23

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

V

IacuteNDICE GENERAL

IIIAnaacutelisis de Datos Empresa 24

18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida enel Trabajo 25

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basadoen distancias utilizando R 26

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colombia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal 27Joseacute Luis Cantildeadas Reche e Irene Palacios Brihuega

IESA-CSIC

21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R 28M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-

chuca y MarianoJ Valderrama BonnetUniversidad de Granada

22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntosmuacuteltiples 29

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad deSalamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salamanca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Salaman-ca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de CoimbraPortugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacuten delCaacutencer Universidad de Salamanca)

23 MMLM Una funcioacuten para construir modelos predictivos con mayor capa-cidad de discriminacioacuten 31

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Uni-versidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

VI

Iacutendice general

24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolvien-do problemas de la Biologiacutea Molecular 32

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

IVWeb Informes Calidad 34

25 Brew o coacutemo mezclar R y texto para generar informes repetitivos 35Xavier Guardiola Martiacutenez

Simpple - Xarxa Santa Tecla

26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Uni-versidad 36

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

27 Informes automatizados con Estadiacutestica univariante y bivariante 37Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez Goacutemez

Unidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

28 Calidad Seis Sigma con R Competitividad e Innovacioacuten 38Emilio Loacutepez Cano Andreacutes Redchuk y Javier M Moguerza

Universidad Rey Juan Carlos

29 Anaacutelisis de comunidades virtuales con R 40Joseacute Felipe Ortega Soto

Libresoft Univ Rey Juan Carlos

30 Cloudnumbers R en la nube 41Carlos Gil Bellosta

datanalytics

31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles paraprogramas en R 42

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

V Metodologiacutea Miscelaacutenea 44

32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R 45Andres Sanz Garcia (Universidad de La Rioja)

Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

VII

IacuteNDICE GENERAL

33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada 46Jorge Luis Ojeda Cabrera

Universidad de Zaragoza

34 KDSeries Una libreriacutea destinada destinada al tratamiento de series tempo-rales en R 47

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada 48Luis Cayuela

Universidad Rey Juan Carlos

36 Adabag 20 una libreria de R para adaboostm1 y bagging 49Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea Rubio

Universidad de Castilla-La Mancha

37 Dating Business Cycle with R 50Ricardo Queralt

Dpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Net-work) 51

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

39 Nomogramas con R 52Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Uni-

versidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

VIConcurso Nestoria 53

40 Mapas temaacuteticos a tiempo real 54Sabarich Raquel

Autores e Instituciones 56

Iacutendice de autores 57

Iacutendice de Instituciones 59

VIII

Informacioacuten General

IX

Descripcioacuten

Las III Jornadas de Usuarios de R tendraacuten lugar en la Escuela de OrganizacioacutenIndustrial en Madrid los diacuteas 17 y 18 de noviembre de 2011 Las jornadas son el reflejode la importancia creciente de R en diversas aacutereas y disciplinas tanto en la universidadcomo fuera de ella Estaacuten abiertas a usuarios y entusiastas de R independientementede su filiacioacuten o aacuterea de intereacutes

De ahiacute que su objetivo sea

Proporcionar un punto de encuentro a los usuarios de R

Fomentar la colaboracioacuten entre ellos en un ambiente multidisciplinar

Divulgar el conocimiento del lenguaje y sus posibilidades

Promover el uso de R

Las jornadas constan de las siguientes partes

Ponencias invitadas

Presentaciones de usuarios de R que reflejen en amplio rango de en que se estaacuteusando R para analizar datos

Sesiones de poacutesters

Talleres

X

Informacioacuten uacutetil

TalleresLos participantes a los talleres deben traer su propio ordenador portaacutetil con las

herramientas que indiquen los responsables de talleres La inscripcioacuten de los talleres serealizaraacute durante la recepcioacuten Dado el limitado nuacutemero de plazas se reservaraacute plazapor orden de inscripcioacuten La ubicacioacuten de los talleres se haraacute en las siguientes aulas

Aula 16 (o aula de informaacutetica) Situada en la planta 0 (entrada de la EOI) A laderecha del saloacuten de actos sale un pasillo y a pocos pasos comienza otro pasillo ala izquierda (zona de Labs) Este segundo pasillo gira a la derecha hasta llegar alaula 16 con puerta blanca y sin etiquetar

Aula 17 (cercana a la biblioteca) La biblioteca estaacute situada en la planta 1 En laplanta 0 a la derecha del saloacuten de actos sale un pasillo desde el que comienzanunas escaleras de subida Al llegar a la planta 1 sale de frente un pasillo queconduce a la biblioteca Al llegar a la misma a la derecha hay un espacio conmesas y sillas que conecta con este aula (al final a la derecha)

Aulas 24 y 25 Situadas en la planta 2 En la planta 0 a la derecha del saloacuten deactos sale un pasillo desde el que comienzan unas escaleras de subida Al llegara la planta 2 empieza un pasillo a la izquierda En este pasillo estaacuten ubicadas lasdos aulas una a continuacioacuten de otra

CertificadosLos certificados se enviaraacuten por correo electroacutenico una vez pasadas las Jornadas

MaterialTodo el material incluyendo la propuesta de Estatutos estaacute disponible a traveacutes de

la paacutegina web de las Jornadas (httpusarorges) No se entregaraacute documentacioacutenadicional

XI

INFORMACIOacuteN UacuteTIL

WifiEn todo el edificio de la EOI se dispone de acceso abierto a una red wifi llamada

EOI-libre No requiere el uso de software especiacutefico ni alta inicial No habraacute disponibi-lidad de una sala de ordenadores

Espacios de encuentroDestacan tres zonas

La cafeteriacutea situada en la planta -1 En la planta 0 a la izquierda empieza unpasillo que termina en unas escaleras Bajando se llega a la cafeteriacutea

Los jardines que rodean todo el edificio Las previsiones meteoroloacutegicas para jue-ves y viernes indican cielos nublados pero baja probabilidad de lluvia con tem-peraturas maacuteximas inferiores a los 15ordmC

La sala adjunta a la biblioteca (ver indicaciones en Talleres aula 17) con mesasy sillas sillones y maacutequinas de refrescos y aperitivos

Lugares para comer y cenarAdemaacutes de la cafeteriacutea de la EOI el sitio maacutes cercano es el Cafeacute Glaceacute donde seraacute

la cena Todo lo que hay alrededor son colegios mayores institutos de investigacioacutenrectorado de la UPM etc Para encontrar maacutes sitios hay que salir de la zona de Metro-politano y subir hacia Reina Victoria (unos 10 minutos andando en cuesta)

XII

Comiteacute cientiacutefico

Ramoacuten Diacuteaz Uriarte

Virgilio Goacutemez Rubio

Juan R Gonzaacutelez

Manuel Muntildeoz Maacuterquez

Oscar Perpintildeaacuten Lamigueiro

Miguel Aacutengel Rodriacuteguez Muiacutentildeos

Gregorio R Serrano

XIII

Comiteacute organizador

Luis Mariano Esteban

Juan Jose Gibaja

Carlos J Gil Bellosta

Oscar Perpintildeaacuten Lamigueiro

Emilio Torres Manzanera

Secretariacutea TeacutecnicaTania Iglesias Cabo

Patricia Diaz

XIV

Patrocinadores

XV

Programa

JUEVES 17 DE NOVIEMBRE

bull 0900-0930 Recepcioacutenbull 0930-1000 Inauguracioacuten oficial de las Jornadas Tiacutescar Lara Vicedecana de Cultura Digital de la EOI Carlos J Gil Bellosta Comunidad de usuaRios

bull 1000-1100 Conferencia plenaria R paralelizacioacuten datos masivos y aplica-ciones web ejemplos del uso de R en bioinformaacutetica (Ramoacuten Diacuteaz Uriarte)(pdf)

bull 1100-1130 Descansobull 1130-1330 Mesa 1 Biostatnetbull 1330-1500 Descansobull 1500-1700 Mesa 2 Ambiental Espacial Miscelaacuteneabull 1500-1700 Talleres Estadiacutestica baacutesica en R con herramientas graacuteficas (Manuel Muntildeoz) Construccioacuten de paquetes (Juan Ramoacuten Gonzaacutelez)

bull 1700-1730 Descansobull 1730-1930 Mesa 3 Anaacutelisis de Datos Empresabull 1930-2030 Asamblea General y Constituyente de la Comunidad de Usua-

riosbull 2130 Cena

VIERNES 18 DE NOVIEMBRE

bull 1000-1200 Mesa 4 Web Informes Calidadbull 1200-1230 Descansobull 1230-1430 Mesa 5 Metodologiacutea Miscelaacuteneabull 1230-1430 Talleres Anaacutelisis de datos espacio-temporales con R (Virgilio Goacutemez) Preparacioacuten de informes perioacutedicos con R y Sweave (Gregorio Serrano) Crea interfaces Web 20 en R con software libre LAMP+Tiki+PluginR

(Xavier de Pedro)bull 1430-1445 Concurso Nestoria ponencia y entrega de premiosbull 1445-1500 Clausura Oficial de las Jornadas

XVI

Parte I

Biostatnet

UNA NUEVA RED INTERDISCIPLINAR DE BIOESTADIacuteSTICA (pdf)

Miguel Angel Rodriacuteguez Muiacutentildeos

1

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 3: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Iacutendice general

Iacutendice general III

Informacioacuten General IX

Descripcioacuten X

Informacioacuten uacutetil XI

Comiteacute cientiacutefico XIII

Comiteacute organizador XIV

Patrocinadores XV

Programa XVI

I Biostatnet 1

1 An R Package for the inference in a multi-state illness-death model 2Luiacutes Meira-Machado

Department of Mathematics and Applications University of Minho Portugal

2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos 3Viacutector Urrea Gales y M Luz Calle

Dept Biologiacutea de Sistemas Universitat de Vic

3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicacio-nes mediante las opciones graacuteficas de R 4

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

III

IacuteNDICE GENERAL

4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival 5Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)

Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Barce-lona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i Investigacioacute Ope-rativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

5 FluDetWeb an interactive web-based system for the early detection of theonset of influenza epidemics 6

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas 7

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Estadiacutes-tica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

7 Paquete de R ldquoalteredExpressionrdquo algoritmo para localizar genes con perfilde expresioacuten alterado por una enfermedad 8

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

8 ROCRegression un paquete en R para la incorporacioacuten de covariables enel anaacutelisis ROC 9

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santia-go de Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

9 Un paquete de R para analizar interacciones factor por curva 10Marta Sestelo Nora M Villanueva Javier Roca Pardintildeas

Universidade de Vigo

10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genescon datos de supervivencia en un estudio GWAS 11

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

IV

Iacutendice general

II Ambiental Espacial Miscelaacutenea 13

11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la inves-tigacioacuten avanzada 14

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacutensolar terrestre (SIAR) y satelital (CM-SAF) 15

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

13 Datos geograacuteficos de tipo raster en R 17Jacob van Etten (IE Universidad)

Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica 18

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

15 solaR geometriacutea radiacioacuten y energiacutea solar en R 20Oscar Perpintildeaacuten Lamigueiro

Universidad Politeacutecnica de Madrid

16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutesticoen R y Comparacioacuten Geoestadiacutestica entre Arcgis y R 22

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional de Co-lombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional deColombia)

17 Psicometriacutea avanzada con R a partir de datos de personalidad en ldquomyPer-sonalityrdquo 23

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

V

IacuteNDICE GENERAL

IIIAnaacutelisis de Datos Empresa 24

18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida enel Trabajo 25

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basadoen distancias utilizando R 26

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colombia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal 27Joseacute Luis Cantildeadas Reche e Irene Palacios Brihuega

IESA-CSIC

21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R 28M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-

chuca y MarianoJ Valderrama BonnetUniversidad de Granada

22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntosmuacuteltiples 29

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad deSalamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salamanca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Salaman-ca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de CoimbraPortugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacuten delCaacutencer Universidad de Salamanca)

23 MMLM Una funcioacuten para construir modelos predictivos con mayor capa-cidad de discriminacioacuten 31

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Uni-versidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

VI

Iacutendice general

24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolvien-do problemas de la Biologiacutea Molecular 32

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

IVWeb Informes Calidad 34

25 Brew o coacutemo mezclar R y texto para generar informes repetitivos 35Xavier Guardiola Martiacutenez

Simpple - Xarxa Santa Tecla

26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Uni-versidad 36

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

27 Informes automatizados con Estadiacutestica univariante y bivariante 37Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez Goacutemez

Unidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

28 Calidad Seis Sigma con R Competitividad e Innovacioacuten 38Emilio Loacutepez Cano Andreacutes Redchuk y Javier M Moguerza

Universidad Rey Juan Carlos

29 Anaacutelisis de comunidades virtuales con R 40Joseacute Felipe Ortega Soto

Libresoft Univ Rey Juan Carlos

30 Cloudnumbers R en la nube 41Carlos Gil Bellosta

datanalytics

31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles paraprogramas en R 42

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

V Metodologiacutea Miscelaacutenea 44

32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R 45Andres Sanz Garcia (Universidad de La Rioja)

Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

VII

IacuteNDICE GENERAL

33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada 46Jorge Luis Ojeda Cabrera

Universidad de Zaragoza

34 KDSeries Una libreriacutea destinada destinada al tratamiento de series tempo-rales en R 47

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada 48Luis Cayuela

Universidad Rey Juan Carlos

36 Adabag 20 una libreria de R para adaboostm1 y bagging 49Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea Rubio

Universidad de Castilla-La Mancha

37 Dating Business Cycle with R 50Ricardo Queralt

Dpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Net-work) 51

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

39 Nomogramas con R 52Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Uni-

versidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

VIConcurso Nestoria 53

40 Mapas temaacuteticos a tiempo real 54Sabarich Raquel

Autores e Instituciones 56

Iacutendice de autores 57

Iacutendice de Instituciones 59

VIII

Informacioacuten General

IX

Descripcioacuten

Las III Jornadas de Usuarios de R tendraacuten lugar en la Escuela de OrganizacioacutenIndustrial en Madrid los diacuteas 17 y 18 de noviembre de 2011 Las jornadas son el reflejode la importancia creciente de R en diversas aacutereas y disciplinas tanto en la universidadcomo fuera de ella Estaacuten abiertas a usuarios y entusiastas de R independientementede su filiacioacuten o aacuterea de intereacutes

De ahiacute que su objetivo sea

Proporcionar un punto de encuentro a los usuarios de R

Fomentar la colaboracioacuten entre ellos en un ambiente multidisciplinar

Divulgar el conocimiento del lenguaje y sus posibilidades

Promover el uso de R

Las jornadas constan de las siguientes partes

Ponencias invitadas

Presentaciones de usuarios de R que reflejen en amplio rango de en que se estaacuteusando R para analizar datos

Sesiones de poacutesters

Talleres

X

Informacioacuten uacutetil

TalleresLos participantes a los talleres deben traer su propio ordenador portaacutetil con las

herramientas que indiquen los responsables de talleres La inscripcioacuten de los talleres serealizaraacute durante la recepcioacuten Dado el limitado nuacutemero de plazas se reservaraacute plazapor orden de inscripcioacuten La ubicacioacuten de los talleres se haraacute en las siguientes aulas

Aula 16 (o aula de informaacutetica) Situada en la planta 0 (entrada de la EOI) A laderecha del saloacuten de actos sale un pasillo y a pocos pasos comienza otro pasillo ala izquierda (zona de Labs) Este segundo pasillo gira a la derecha hasta llegar alaula 16 con puerta blanca y sin etiquetar

Aula 17 (cercana a la biblioteca) La biblioteca estaacute situada en la planta 1 En laplanta 0 a la derecha del saloacuten de actos sale un pasillo desde el que comienzanunas escaleras de subida Al llegar a la planta 1 sale de frente un pasillo queconduce a la biblioteca Al llegar a la misma a la derecha hay un espacio conmesas y sillas que conecta con este aula (al final a la derecha)

Aulas 24 y 25 Situadas en la planta 2 En la planta 0 a la derecha del saloacuten deactos sale un pasillo desde el que comienzan unas escaleras de subida Al llegara la planta 2 empieza un pasillo a la izquierda En este pasillo estaacuten ubicadas lasdos aulas una a continuacioacuten de otra

CertificadosLos certificados se enviaraacuten por correo electroacutenico una vez pasadas las Jornadas

MaterialTodo el material incluyendo la propuesta de Estatutos estaacute disponible a traveacutes de

la paacutegina web de las Jornadas (httpusarorges) No se entregaraacute documentacioacutenadicional

XI

INFORMACIOacuteN UacuteTIL

WifiEn todo el edificio de la EOI se dispone de acceso abierto a una red wifi llamada

EOI-libre No requiere el uso de software especiacutefico ni alta inicial No habraacute disponibi-lidad de una sala de ordenadores

Espacios de encuentroDestacan tres zonas

La cafeteriacutea situada en la planta -1 En la planta 0 a la izquierda empieza unpasillo que termina en unas escaleras Bajando se llega a la cafeteriacutea

Los jardines que rodean todo el edificio Las previsiones meteoroloacutegicas para jue-ves y viernes indican cielos nublados pero baja probabilidad de lluvia con tem-peraturas maacuteximas inferiores a los 15ordmC

La sala adjunta a la biblioteca (ver indicaciones en Talleres aula 17) con mesasy sillas sillones y maacutequinas de refrescos y aperitivos

Lugares para comer y cenarAdemaacutes de la cafeteriacutea de la EOI el sitio maacutes cercano es el Cafeacute Glaceacute donde seraacute

la cena Todo lo que hay alrededor son colegios mayores institutos de investigacioacutenrectorado de la UPM etc Para encontrar maacutes sitios hay que salir de la zona de Metro-politano y subir hacia Reina Victoria (unos 10 minutos andando en cuesta)

XII

Comiteacute cientiacutefico

Ramoacuten Diacuteaz Uriarte

Virgilio Goacutemez Rubio

Juan R Gonzaacutelez

Manuel Muntildeoz Maacuterquez

Oscar Perpintildeaacuten Lamigueiro

Miguel Aacutengel Rodriacuteguez Muiacutentildeos

Gregorio R Serrano

XIII

Comiteacute organizador

Luis Mariano Esteban

Juan Jose Gibaja

Carlos J Gil Bellosta

Oscar Perpintildeaacuten Lamigueiro

Emilio Torres Manzanera

Secretariacutea TeacutecnicaTania Iglesias Cabo

Patricia Diaz

XIV

Patrocinadores

XV

Programa

JUEVES 17 DE NOVIEMBRE

bull 0900-0930 Recepcioacutenbull 0930-1000 Inauguracioacuten oficial de las Jornadas Tiacutescar Lara Vicedecana de Cultura Digital de la EOI Carlos J Gil Bellosta Comunidad de usuaRios

bull 1000-1100 Conferencia plenaria R paralelizacioacuten datos masivos y aplica-ciones web ejemplos del uso de R en bioinformaacutetica (Ramoacuten Diacuteaz Uriarte)(pdf)

bull 1100-1130 Descansobull 1130-1330 Mesa 1 Biostatnetbull 1330-1500 Descansobull 1500-1700 Mesa 2 Ambiental Espacial Miscelaacuteneabull 1500-1700 Talleres Estadiacutestica baacutesica en R con herramientas graacuteficas (Manuel Muntildeoz) Construccioacuten de paquetes (Juan Ramoacuten Gonzaacutelez)

bull 1700-1730 Descansobull 1730-1930 Mesa 3 Anaacutelisis de Datos Empresabull 1930-2030 Asamblea General y Constituyente de la Comunidad de Usua-

riosbull 2130 Cena

VIERNES 18 DE NOVIEMBRE

bull 1000-1200 Mesa 4 Web Informes Calidadbull 1200-1230 Descansobull 1230-1430 Mesa 5 Metodologiacutea Miscelaacuteneabull 1230-1430 Talleres Anaacutelisis de datos espacio-temporales con R (Virgilio Goacutemez) Preparacioacuten de informes perioacutedicos con R y Sweave (Gregorio Serrano) Crea interfaces Web 20 en R con software libre LAMP+Tiki+PluginR

(Xavier de Pedro)bull 1430-1445 Concurso Nestoria ponencia y entrega de premiosbull 1445-1500 Clausura Oficial de las Jornadas

XVI

Parte I

Biostatnet

UNA NUEVA RED INTERDISCIPLINAR DE BIOESTADIacuteSTICA (pdf)

Miguel Angel Rodriacuteguez Muiacutentildeos

1

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 4: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

IacuteNDICE GENERAL

4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival 5Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)

Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Barce-lona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i Investigacioacute Ope-rativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

5 FluDetWeb an interactive web-based system for the early detection of theonset of influenza epidemics 6

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas 7

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Estadiacutes-tica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

7 Paquete de R ldquoalteredExpressionrdquo algoritmo para localizar genes con perfilde expresioacuten alterado por una enfermedad 8

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

8 ROCRegression un paquete en R para la incorporacioacuten de covariables enel anaacutelisis ROC 9

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santia-go de Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

9 Un paquete de R para analizar interacciones factor por curva 10Marta Sestelo Nora M Villanueva Javier Roca Pardintildeas

Universidade de Vigo

10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genescon datos de supervivencia en un estudio GWAS 11

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

IV

Iacutendice general

II Ambiental Espacial Miscelaacutenea 13

11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la inves-tigacioacuten avanzada 14

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacutensolar terrestre (SIAR) y satelital (CM-SAF) 15

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

13 Datos geograacuteficos de tipo raster en R 17Jacob van Etten (IE Universidad)

Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica 18

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

15 solaR geometriacutea radiacioacuten y energiacutea solar en R 20Oscar Perpintildeaacuten Lamigueiro

Universidad Politeacutecnica de Madrid

16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutesticoen R y Comparacioacuten Geoestadiacutestica entre Arcgis y R 22

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional de Co-lombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional deColombia)

17 Psicometriacutea avanzada con R a partir de datos de personalidad en ldquomyPer-sonalityrdquo 23

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

V

IacuteNDICE GENERAL

IIIAnaacutelisis de Datos Empresa 24

18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida enel Trabajo 25

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basadoen distancias utilizando R 26

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colombia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal 27Joseacute Luis Cantildeadas Reche e Irene Palacios Brihuega

IESA-CSIC

21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R 28M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-

chuca y MarianoJ Valderrama BonnetUniversidad de Granada

22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntosmuacuteltiples 29

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad deSalamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salamanca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Salaman-ca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de CoimbraPortugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacuten delCaacutencer Universidad de Salamanca)

23 MMLM Una funcioacuten para construir modelos predictivos con mayor capa-cidad de discriminacioacuten 31

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Uni-versidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

VI

Iacutendice general

24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolvien-do problemas de la Biologiacutea Molecular 32

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

IVWeb Informes Calidad 34

25 Brew o coacutemo mezclar R y texto para generar informes repetitivos 35Xavier Guardiola Martiacutenez

Simpple - Xarxa Santa Tecla

26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Uni-versidad 36

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

27 Informes automatizados con Estadiacutestica univariante y bivariante 37Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez Goacutemez

Unidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

28 Calidad Seis Sigma con R Competitividad e Innovacioacuten 38Emilio Loacutepez Cano Andreacutes Redchuk y Javier M Moguerza

Universidad Rey Juan Carlos

29 Anaacutelisis de comunidades virtuales con R 40Joseacute Felipe Ortega Soto

Libresoft Univ Rey Juan Carlos

30 Cloudnumbers R en la nube 41Carlos Gil Bellosta

datanalytics

31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles paraprogramas en R 42

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

V Metodologiacutea Miscelaacutenea 44

32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R 45Andres Sanz Garcia (Universidad de La Rioja)

Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

VII

IacuteNDICE GENERAL

33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada 46Jorge Luis Ojeda Cabrera

Universidad de Zaragoza

34 KDSeries Una libreriacutea destinada destinada al tratamiento de series tempo-rales en R 47

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada 48Luis Cayuela

Universidad Rey Juan Carlos

36 Adabag 20 una libreria de R para adaboostm1 y bagging 49Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea Rubio

Universidad de Castilla-La Mancha

37 Dating Business Cycle with R 50Ricardo Queralt

Dpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Net-work) 51

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

39 Nomogramas con R 52Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Uni-

versidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

VIConcurso Nestoria 53

40 Mapas temaacuteticos a tiempo real 54Sabarich Raquel

Autores e Instituciones 56

Iacutendice de autores 57

Iacutendice de Instituciones 59

VIII

Informacioacuten General

IX

Descripcioacuten

Las III Jornadas de Usuarios de R tendraacuten lugar en la Escuela de OrganizacioacutenIndustrial en Madrid los diacuteas 17 y 18 de noviembre de 2011 Las jornadas son el reflejode la importancia creciente de R en diversas aacutereas y disciplinas tanto en la universidadcomo fuera de ella Estaacuten abiertas a usuarios y entusiastas de R independientementede su filiacioacuten o aacuterea de intereacutes

De ahiacute que su objetivo sea

Proporcionar un punto de encuentro a los usuarios de R

Fomentar la colaboracioacuten entre ellos en un ambiente multidisciplinar

Divulgar el conocimiento del lenguaje y sus posibilidades

Promover el uso de R

Las jornadas constan de las siguientes partes

Ponencias invitadas

Presentaciones de usuarios de R que reflejen en amplio rango de en que se estaacuteusando R para analizar datos

Sesiones de poacutesters

Talleres

X

Informacioacuten uacutetil

TalleresLos participantes a los talleres deben traer su propio ordenador portaacutetil con las

herramientas que indiquen los responsables de talleres La inscripcioacuten de los talleres serealizaraacute durante la recepcioacuten Dado el limitado nuacutemero de plazas se reservaraacute plazapor orden de inscripcioacuten La ubicacioacuten de los talleres se haraacute en las siguientes aulas

Aula 16 (o aula de informaacutetica) Situada en la planta 0 (entrada de la EOI) A laderecha del saloacuten de actos sale un pasillo y a pocos pasos comienza otro pasillo ala izquierda (zona de Labs) Este segundo pasillo gira a la derecha hasta llegar alaula 16 con puerta blanca y sin etiquetar

Aula 17 (cercana a la biblioteca) La biblioteca estaacute situada en la planta 1 En laplanta 0 a la derecha del saloacuten de actos sale un pasillo desde el que comienzanunas escaleras de subida Al llegar a la planta 1 sale de frente un pasillo queconduce a la biblioteca Al llegar a la misma a la derecha hay un espacio conmesas y sillas que conecta con este aula (al final a la derecha)

Aulas 24 y 25 Situadas en la planta 2 En la planta 0 a la derecha del saloacuten deactos sale un pasillo desde el que comienzan unas escaleras de subida Al llegara la planta 2 empieza un pasillo a la izquierda En este pasillo estaacuten ubicadas lasdos aulas una a continuacioacuten de otra

CertificadosLos certificados se enviaraacuten por correo electroacutenico una vez pasadas las Jornadas

MaterialTodo el material incluyendo la propuesta de Estatutos estaacute disponible a traveacutes de

la paacutegina web de las Jornadas (httpusarorges) No se entregaraacute documentacioacutenadicional

XI

INFORMACIOacuteN UacuteTIL

WifiEn todo el edificio de la EOI se dispone de acceso abierto a una red wifi llamada

EOI-libre No requiere el uso de software especiacutefico ni alta inicial No habraacute disponibi-lidad de una sala de ordenadores

Espacios de encuentroDestacan tres zonas

La cafeteriacutea situada en la planta -1 En la planta 0 a la izquierda empieza unpasillo que termina en unas escaleras Bajando se llega a la cafeteriacutea

Los jardines que rodean todo el edificio Las previsiones meteoroloacutegicas para jue-ves y viernes indican cielos nublados pero baja probabilidad de lluvia con tem-peraturas maacuteximas inferiores a los 15ordmC

La sala adjunta a la biblioteca (ver indicaciones en Talleres aula 17) con mesasy sillas sillones y maacutequinas de refrescos y aperitivos

Lugares para comer y cenarAdemaacutes de la cafeteriacutea de la EOI el sitio maacutes cercano es el Cafeacute Glaceacute donde seraacute

la cena Todo lo que hay alrededor son colegios mayores institutos de investigacioacutenrectorado de la UPM etc Para encontrar maacutes sitios hay que salir de la zona de Metro-politano y subir hacia Reina Victoria (unos 10 minutos andando en cuesta)

XII

Comiteacute cientiacutefico

Ramoacuten Diacuteaz Uriarte

Virgilio Goacutemez Rubio

Juan R Gonzaacutelez

Manuel Muntildeoz Maacuterquez

Oscar Perpintildeaacuten Lamigueiro

Miguel Aacutengel Rodriacuteguez Muiacutentildeos

Gregorio R Serrano

XIII

Comiteacute organizador

Luis Mariano Esteban

Juan Jose Gibaja

Carlos J Gil Bellosta

Oscar Perpintildeaacuten Lamigueiro

Emilio Torres Manzanera

Secretariacutea TeacutecnicaTania Iglesias Cabo

Patricia Diaz

XIV

Patrocinadores

XV

Programa

JUEVES 17 DE NOVIEMBRE

bull 0900-0930 Recepcioacutenbull 0930-1000 Inauguracioacuten oficial de las Jornadas Tiacutescar Lara Vicedecana de Cultura Digital de la EOI Carlos J Gil Bellosta Comunidad de usuaRios

bull 1000-1100 Conferencia plenaria R paralelizacioacuten datos masivos y aplica-ciones web ejemplos del uso de R en bioinformaacutetica (Ramoacuten Diacuteaz Uriarte)(pdf)

bull 1100-1130 Descansobull 1130-1330 Mesa 1 Biostatnetbull 1330-1500 Descansobull 1500-1700 Mesa 2 Ambiental Espacial Miscelaacuteneabull 1500-1700 Talleres Estadiacutestica baacutesica en R con herramientas graacuteficas (Manuel Muntildeoz) Construccioacuten de paquetes (Juan Ramoacuten Gonzaacutelez)

bull 1700-1730 Descansobull 1730-1930 Mesa 3 Anaacutelisis de Datos Empresabull 1930-2030 Asamblea General y Constituyente de la Comunidad de Usua-

riosbull 2130 Cena

VIERNES 18 DE NOVIEMBRE

bull 1000-1200 Mesa 4 Web Informes Calidadbull 1200-1230 Descansobull 1230-1430 Mesa 5 Metodologiacutea Miscelaacuteneabull 1230-1430 Talleres Anaacutelisis de datos espacio-temporales con R (Virgilio Goacutemez) Preparacioacuten de informes perioacutedicos con R y Sweave (Gregorio Serrano) Crea interfaces Web 20 en R con software libre LAMP+Tiki+PluginR

(Xavier de Pedro)bull 1430-1445 Concurso Nestoria ponencia y entrega de premiosbull 1445-1500 Clausura Oficial de las Jornadas

XVI

Parte I

Biostatnet

UNA NUEVA RED INTERDISCIPLINAR DE BIOESTADIacuteSTICA (pdf)

Miguel Angel Rodriacuteguez Muiacutentildeos

1

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 5: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Iacutendice general

II Ambiental Espacial Miscelaacutenea 13

11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la inves-tigacioacuten avanzada 14

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacutensolar terrestre (SIAR) y satelital (CM-SAF) 15

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

13 Datos geograacuteficos de tipo raster en R 17Jacob van Etten (IE Universidad)

Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica 18

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

15 solaR geometriacutea radiacioacuten y energiacutea solar en R 20Oscar Perpintildeaacuten Lamigueiro

Universidad Politeacutecnica de Madrid

16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutesticoen R y Comparacioacuten Geoestadiacutestica entre Arcgis y R 22

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional de Co-lombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional deColombia)

17 Psicometriacutea avanzada con R a partir de datos de personalidad en ldquomyPer-sonalityrdquo 23

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

V

IacuteNDICE GENERAL

IIIAnaacutelisis de Datos Empresa 24

18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida enel Trabajo 25

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basadoen distancias utilizando R 26

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colombia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal 27Joseacute Luis Cantildeadas Reche e Irene Palacios Brihuega

IESA-CSIC

21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R 28M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-

chuca y MarianoJ Valderrama BonnetUniversidad de Granada

22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntosmuacuteltiples 29

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad deSalamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salamanca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Salaman-ca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de CoimbraPortugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacuten delCaacutencer Universidad de Salamanca)

23 MMLM Una funcioacuten para construir modelos predictivos con mayor capa-cidad de discriminacioacuten 31

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Uni-versidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

VI

Iacutendice general

24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolvien-do problemas de la Biologiacutea Molecular 32

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

IVWeb Informes Calidad 34

25 Brew o coacutemo mezclar R y texto para generar informes repetitivos 35Xavier Guardiola Martiacutenez

Simpple - Xarxa Santa Tecla

26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Uni-versidad 36

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

27 Informes automatizados con Estadiacutestica univariante y bivariante 37Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez Goacutemez

Unidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

28 Calidad Seis Sigma con R Competitividad e Innovacioacuten 38Emilio Loacutepez Cano Andreacutes Redchuk y Javier M Moguerza

Universidad Rey Juan Carlos

29 Anaacutelisis de comunidades virtuales con R 40Joseacute Felipe Ortega Soto

Libresoft Univ Rey Juan Carlos

30 Cloudnumbers R en la nube 41Carlos Gil Bellosta

datanalytics

31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles paraprogramas en R 42

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

V Metodologiacutea Miscelaacutenea 44

32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R 45Andres Sanz Garcia (Universidad de La Rioja)

Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

VII

IacuteNDICE GENERAL

33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada 46Jorge Luis Ojeda Cabrera

Universidad de Zaragoza

34 KDSeries Una libreriacutea destinada destinada al tratamiento de series tempo-rales en R 47

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada 48Luis Cayuela

Universidad Rey Juan Carlos

36 Adabag 20 una libreria de R para adaboostm1 y bagging 49Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea Rubio

Universidad de Castilla-La Mancha

37 Dating Business Cycle with R 50Ricardo Queralt

Dpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Net-work) 51

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

39 Nomogramas con R 52Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Uni-

versidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

VIConcurso Nestoria 53

40 Mapas temaacuteticos a tiempo real 54Sabarich Raquel

Autores e Instituciones 56

Iacutendice de autores 57

Iacutendice de Instituciones 59

VIII

Informacioacuten General

IX

Descripcioacuten

Las III Jornadas de Usuarios de R tendraacuten lugar en la Escuela de OrganizacioacutenIndustrial en Madrid los diacuteas 17 y 18 de noviembre de 2011 Las jornadas son el reflejode la importancia creciente de R en diversas aacutereas y disciplinas tanto en la universidadcomo fuera de ella Estaacuten abiertas a usuarios y entusiastas de R independientementede su filiacioacuten o aacuterea de intereacutes

De ahiacute que su objetivo sea

Proporcionar un punto de encuentro a los usuarios de R

Fomentar la colaboracioacuten entre ellos en un ambiente multidisciplinar

Divulgar el conocimiento del lenguaje y sus posibilidades

Promover el uso de R

Las jornadas constan de las siguientes partes

Ponencias invitadas

Presentaciones de usuarios de R que reflejen en amplio rango de en que se estaacuteusando R para analizar datos

Sesiones de poacutesters

Talleres

X

Informacioacuten uacutetil

TalleresLos participantes a los talleres deben traer su propio ordenador portaacutetil con las

herramientas que indiquen los responsables de talleres La inscripcioacuten de los talleres serealizaraacute durante la recepcioacuten Dado el limitado nuacutemero de plazas se reservaraacute plazapor orden de inscripcioacuten La ubicacioacuten de los talleres se haraacute en las siguientes aulas

Aula 16 (o aula de informaacutetica) Situada en la planta 0 (entrada de la EOI) A laderecha del saloacuten de actos sale un pasillo y a pocos pasos comienza otro pasillo ala izquierda (zona de Labs) Este segundo pasillo gira a la derecha hasta llegar alaula 16 con puerta blanca y sin etiquetar

Aula 17 (cercana a la biblioteca) La biblioteca estaacute situada en la planta 1 En laplanta 0 a la derecha del saloacuten de actos sale un pasillo desde el que comienzanunas escaleras de subida Al llegar a la planta 1 sale de frente un pasillo queconduce a la biblioteca Al llegar a la misma a la derecha hay un espacio conmesas y sillas que conecta con este aula (al final a la derecha)

Aulas 24 y 25 Situadas en la planta 2 En la planta 0 a la derecha del saloacuten deactos sale un pasillo desde el que comienzan unas escaleras de subida Al llegara la planta 2 empieza un pasillo a la izquierda En este pasillo estaacuten ubicadas lasdos aulas una a continuacioacuten de otra

CertificadosLos certificados se enviaraacuten por correo electroacutenico una vez pasadas las Jornadas

MaterialTodo el material incluyendo la propuesta de Estatutos estaacute disponible a traveacutes de

la paacutegina web de las Jornadas (httpusarorges) No se entregaraacute documentacioacutenadicional

XI

INFORMACIOacuteN UacuteTIL

WifiEn todo el edificio de la EOI se dispone de acceso abierto a una red wifi llamada

EOI-libre No requiere el uso de software especiacutefico ni alta inicial No habraacute disponibi-lidad de una sala de ordenadores

Espacios de encuentroDestacan tres zonas

La cafeteriacutea situada en la planta -1 En la planta 0 a la izquierda empieza unpasillo que termina en unas escaleras Bajando se llega a la cafeteriacutea

Los jardines que rodean todo el edificio Las previsiones meteoroloacutegicas para jue-ves y viernes indican cielos nublados pero baja probabilidad de lluvia con tem-peraturas maacuteximas inferiores a los 15ordmC

La sala adjunta a la biblioteca (ver indicaciones en Talleres aula 17) con mesasy sillas sillones y maacutequinas de refrescos y aperitivos

Lugares para comer y cenarAdemaacutes de la cafeteriacutea de la EOI el sitio maacutes cercano es el Cafeacute Glaceacute donde seraacute

la cena Todo lo que hay alrededor son colegios mayores institutos de investigacioacutenrectorado de la UPM etc Para encontrar maacutes sitios hay que salir de la zona de Metro-politano y subir hacia Reina Victoria (unos 10 minutos andando en cuesta)

XII

Comiteacute cientiacutefico

Ramoacuten Diacuteaz Uriarte

Virgilio Goacutemez Rubio

Juan R Gonzaacutelez

Manuel Muntildeoz Maacuterquez

Oscar Perpintildeaacuten Lamigueiro

Miguel Aacutengel Rodriacuteguez Muiacutentildeos

Gregorio R Serrano

XIII

Comiteacute organizador

Luis Mariano Esteban

Juan Jose Gibaja

Carlos J Gil Bellosta

Oscar Perpintildeaacuten Lamigueiro

Emilio Torres Manzanera

Secretariacutea TeacutecnicaTania Iglesias Cabo

Patricia Diaz

XIV

Patrocinadores

XV

Programa

JUEVES 17 DE NOVIEMBRE

bull 0900-0930 Recepcioacutenbull 0930-1000 Inauguracioacuten oficial de las Jornadas Tiacutescar Lara Vicedecana de Cultura Digital de la EOI Carlos J Gil Bellosta Comunidad de usuaRios

bull 1000-1100 Conferencia plenaria R paralelizacioacuten datos masivos y aplica-ciones web ejemplos del uso de R en bioinformaacutetica (Ramoacuten Diacuteaz Uriarte)(pdf)

bull 1100-1130 Descansobull 1130-1330 Mesa 1 Biostatnetbull 1330-1500 Descansobull 1500-1700 Mesa 2 Ambiental Espacial Miscelaacuteneabull 1500-1700 Talleres Estadiacutestica baacutesica en R con herramientas graacuteficas (Manuel Muntildeoz) Construccioacuten de paquetes (Juan Ramoacuten Gonzaacutelez)

bull 1700-1730 Descansobull 1730-1930 Mesa 3 Anaacutelisis de Datos Empresabull 1930-2030 Asamblea General y Constituyente de la Comunidad de Usua-

riosbull 2130 Cena

VIERNES 18 DE NOVIEMBRE

bull 1000-1200 Mesa 4 Web Informes Calidadbull 1200-1230 Descansobull 1230-1430 Mesa 5 Metodologiacutea Miscelaacuteneabull 1230-1430 Talleres Anaacutelisis de datos espacio-temporales con R (Virgilio Goacutemez) Preparacioacuten de informes perioacutedicos con R y Sweave (Gregorio Serrano) Crea interfaces Web 20 en R con software libre LAMP+Tiki+PluginR

(Xavier de Pedro)bull 1430-1445 Concurso Nestoria ponencia y entrega de premiosbull 1445-1500 Clausura Oficial de las Jornadas

XVI

Parte I

Biostatnet

UNA NUEVA RED INTERDISCIPLINAR DE BIOESTADIacuteSTICA (pdf)

Miguel Angel Rodriacuteguez Muiacutentildeos

1

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 6: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

IacuteNDICE GENERAL

IIIAnaacutelisis de Datos Empresa 24

18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida enel Trabajo 25

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basadoen distancias utilizando R 26

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colombia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal 27Joseacute Luis Cantildeadas Reche e Irene Palacios Brihuega

IESA-CSIC

21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R 28M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-

chuca y MarianoJ Valderrama BonnetUniversidad de Granada

22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntosmuacuteltiples 29

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad deSalamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salamanca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Salaman-ca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de CoimbraPortugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacuten delCaacutencer Universidad de Salamanca)

23 MMLM Una funcioacuten para construir modelos predictivos con mayor capa-cidad de discriminacioacuten 31

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Uni-versidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

VI

Iacutendice general

24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolvien-do problemas de la Biologiacutea Molecular 32

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

IVWeb Informes Calidad 34

25 Brew o coacutemo mezclar R y texto para generar informes repetitivos 35Xavier Guardiola Martiacutenez

Simpple - Xarxa Santa Tecla

26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Uni-versidad 36

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

27 Informes automatizados con Estadiacutestica univariante y bivariante 37Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez Goacutemez

Unidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

28 Calidad Seis Sigma con R Competitividad e Innovacioacuten 38Emilio Loacutepez Cano Andreacutes Redchuk y Javier M Moguerza

Universidad Rey Juan Carlos

29 Anaacutelisis de comunidades virtuales con R 40Joseacute Felipe Ortega Soto

Libresoft Univ Rey Juan Carlos

30 Cloudnumbers R en la nube 41Carlos Gil Bellosta

datanalytics

31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles paraprogramas en R 42

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

V Metodologiacutea Miscelaacutenea 44

32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R 45Andres Sanz Garcia (Universidad de La Rioja)

Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

VII

IacuteNDICE GENERAL

33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada 46Jorge Luis Ojeda Cabrera

Universidad de Zaragoza

34 KDSeries Una libreriacutea destinada destinada al tratamiento de series tempo-rales en R 47

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada 48Luis Cayuela

Universidad Rey Juan Carlos

36 Adabag 20 una libreria de R para adaboostm1 y bagging 49Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea Rubio

Universidad de Castilla-La Mancha

37 Dating Business Cycle with R 50Ricardo Queralt

Dpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Net-work) 51

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

39 Nomogramas con R 52Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Uni-

versidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

VIConcurso Nestoria 53

40 Mapas temaacuteticos a tiempo real 54Sabarich Raquel

Autores e Instituciones 56

Iacutendice de autores 57

Iacutendice de Instituciones 59

VIII

Informacioacuten General

IX

Descripcioacuten

Las III Jornadas de Usuarios de R tendraacuten lugar en la Escuela de OrganizacioacutenIndustrial en Madrid los diacuteas 17 y 18 de noviembre de 2011 Las jornadas son el reflejode la importancia creciente de R en diversas aacutereas y disciplinas tanto en la universidadcomo fuera de ella Estaacuten abiertas a usuarios y entusiastas de R independientementede su filiacioacuten o aacuterea de intereacutes

De ahiacute que su objetivo sea

Proporcionar un punto de encuentro a los usuarios de R

Fomentar la colaboracioacuten entre ellos en un ambiente multidisciplinar

Divulgar el conocimiento del lenguaje y sus posibilidades

Promover el uso de R

Las jornadas constan de las siguientes partes

Ponencias invitadas

Presentaciones de usuarios de R que reflejen en amplio rango de en que se estaacuteusando R para analizar datos

Sesiones de poacutesters

Talleres

X

Informacioacuten uacutetil

TalleresLos participantes a los talleres deben traer su propio ordenador portaacutetil con las

herramientas que indiquen los responsables de talleres La inscripcioacuten de los talleres serealizaraacute durante la recepcioacuten Dado el limitado nuacutemero de plazas se reservaraacute plazapor orden de inscripcioacuten La ubicacioacuten de los talleres se haraacute en las siguientes aulas

Aula 16 (o aula de informaacutetica) Situada en la planta 0 (entrada de la EOI) A laderecha del saloacuten de actos sale un pasillo y a pocos pasos comienza otro pasillo ala izquierda (zona de Labs) Este segundo pasillo gira a la derecha hasta llegar alaula 16 con puerta blanca y sin etiquetar

Aula 17 (cercana a la biblioteca) La biblioteca estaacute situada en la planta 1 En laplanta 0 a la derecha del saloacuten de actos sale un pasillo desde el que comienzanunas escaleras de subida Al llegar a la planta 1 sale de frente un pasillo queconduce a la biblioteca Al llegar a la misma a la derecha hay un espacio conmesas y sillas que conecta con este aula (al final a la derecha)

Aulas 24 y 25 Situadas en la planta 2 En la planta 0 a la derecha del saloacuten deactos sale un pasillo desde el que comienzan unas escaleras de subida Al llegara la planta 2 empieza un pasillo a la izquierda En este pasillo estaacuten ubicadas lasdos aulas una a continuacioacuten de otra

CertificadosLos certificados se enviaraacuten por correo electroacutenico una vez pasadas las Jornadas

MaterialTodo el material incluyendo la propuesta de Estatutos estaacute disponible a traveacutes de

la paacutegina web de las Jornadas (httpusarorges) No se entregaraacute documentacioacutenadicional

XI

INFORMACIOacuteN UacuteTIL

WifiEn todo el edificio de la EOI se dispone de acceso abierto a una red wifi llamada

EOI-libre No requiere el uso de software especiacutefico ni alta inicial No habraacute disponibi-lidad de una sala de ordenadores

Espacios de encuentroDestacan tres zonas

La cafeteriacutea situada en la planta -1 En la planta 0 a la izquierda empieza unpasillo que termina en unas escaleras Bajando se llega a la cafeteriacutea

Los jardines que rodean todo el edificio Las previsiones meteoroloacutegicas para jue-ves y viernes indican cielos nublados pero baja probabilidad de lluvia con tem-peraturas maacuteximas inferiores a los 15ordmC

La sala adjunta a la biblioteca (ver indicaciones en Talleres aula 17) con mesasy sillas sillones y maacutequinas de refrescos y aperitivos

Lugares para comer y cenarAdemaacutes de la cafeteriacutea de la EOI el sitio maacutes cercano es el Cafeacute Glaceacute donde seraacute

la cena Todo lo que hay alrededor son colegios mayores institutos de investigacioacutenrectorado de la UPM etc Para encontrar maacutes sitios hay que salir de la zona de Metro-politano y subir hacia Reina Victoria (unos 10 minutos andando en cuesta)

XII

Comiteacute cientiacutefico

Ramoacuten Diacuteaz Uriarte

Virgilio Goacutemez Rubio

Juan R Gonzaacutelez

Manuel Muntildeoz Maacuterquez

Oscar Perpintildeaacuten Lamigueiro

Miguel Aacutengel Rodriacuteguez Muiacutentildeos

Gregorio R Serrano

XIII

Comiteacute organizador

Luis Mariano Esteban

Juan Jose Gibaja

Carlos J Gil Bellosta

Oscar Perpintildeaacuten Lamigueiro

Emilio Torres Manzanera

Secretariacutea TeacutecnicaTania Iglesias Cabo

Patricia Diaz

XIV

Patrocinadores

XV

Programa

JUEVES 17 DE NOVIEMBRE

bull 0900-0930 Recepcioacutenbull 0930-1000 Inauguracioacuten oficial de las Jornadas Tiacutescar Lara Vicedecana de Cultura Digital de la EOI Carlos J Gil Bellosta Comunidad de usuaRios

bull 1000-1100 Conferencia plenaria R paralelizacioacuten datos masivos y aplica-ciones web ejemplos del uso de R en bioinformaacutetica (Ramoacuten Diacuteaz Uriarte)(pdf)

bull 1100-1130 Descansobull 1130-1330 Mesa 1 Biostatnetbull 1330-1500 Descansobull 1500-1700 Mesa 2 Ambiental Espacial Miscelaacuteneabull 1500-1700 Talleres Estadiacutestica baacutesica en R con herramientas graacuteficas (Manuel Muntildeoz) Construccioacuten de paquetes (Juan Ramoacuten Gonzaacutelez)

bull 1700-1730 Descansobull 1730-1930 Mesa 3 Anaacutelisis de Datos Empresabull 1930-2030 Asamblea General y Constituyente de la Comunidad de Usua-

riosbull 2130 Cena

VIERNES 18 DE NOVIEMBRE

bull 1000-1200 Mesa 4 Web Informes Calidadbull 1200-1230 Descansobull 1230-1430 Mesa 5 Metodologiacutea Miscelaacuteneabull 1230-1430 Talleres Anaacutelisis de datos espacio-temporales con R (Virgilio Goacutemez) Preparacioacuten de informes perioacutedicos con R y Sweave (Gregorio Serrano) Crea interfaces Web 20 en R con software libre LAMP+Tiki+PluginR

(Xavier de Pedro)bull 1430-1445 Concurso Nestoria ponencia y entrega de premiosbull 1445-1500 Clausura Oficial de las Jornadas

XVI

Parte I

Biostatnet

UNA NUEVA RED INTERDISCIPLINAR DE BIOESTADIacuteSTICA (pdf)

Miguel Angel Rodriacuteguez Muiacutentildeos

1

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 7: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Iacutendice general

24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolvien-do problemas de la Biologiacutea Molecular 32

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

IVWeb Informes Calidad 34

25 Brew o coacutemo mezclar R y texto para generar informes repetitivos 35Xavier Guardiola Martiacutenez

Simpple - Xarxa Santa Tecla

26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Uni-versidad 36

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

27 Informes automatizados con Estadiacutestica univariante y bivariante 37Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez Goacutemez

Unidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

28 Calidad Seis Sigma con R Competitividad e Innovacioacuten 38Emilio Loacutepez Cano Andreacutes Redchuk y Javier M Moguerza

Universidad Rey Juan Carlos

29 Anaacutelisis de comunidades virtuales con R 40Joseacute Felipe Ortega Soto

Libresoft Univ Rey Juan Carlos

30 Cloudnumbers R en la nube 41Carlos Gil Bellosta

datanalytics

31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles paraprogramas en R 42

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

V Metodologiacutea Miscelaacutenea 44

32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R 45Andres Sanz Garcia (Universidad de La Rioja)

Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

VII

IacuteNDICE GENERAL

33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada 46Jorge Luis Ojeda Cabrera

Universidad de Zaragoza

34 KDSeries Una libreriacutea destinada destinada al tratamiento de series tempo-rales en R 47

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada 48Luis Cayuela

Universidad Rey Juan Carlos

36 Adabag 20 una libreria de R para adaboostm1 y bagging 49Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea Rubio

Universidad de Castilla-La Mancha

37 Dating Business Cycle with R 50Ricardo Queralt

Dpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Net-work) 51

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

39 Nomogramas con R 52Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Uni-

versidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

VIConcurso Nestoria 53

40 Mapas temaacuteticos a tiempo real 54Sabarich Raquel

Autores e Instituciones 56

Iacutendice de autores 57

Iacutendice de Instituciones 59

VIII

Informacioacuten General

IX

Descripcioacuten

Las III Jornadas de Usuarios de R tendraacuten lugar en la Escuela de OrganizacioacutenIndustrial en Madrid los diacuteas 17 y 18 de noviembre de 2011 Las jornadas son el reflejode la importancia creciente de R en diversas aacutereas y disciplinas tanto en la universidadcomo fuera de ella Estaacuten abiertas a usuarios y entusiastas de R independientementede su filiacioacuten o aacuterea de intereacutes

De ahiacute que su objetivo sea

Proporcionar un punto de encuentro a los usuarios de R

Fomentar la colaboracioacuten entre ellos en un ambiente multidisciplinar

Divulgar el conocimiento del lenguaje y sus posibilidades

Promover el uso de R

Las jornadas constan de las siguientes partes

Ponencias invitadas

Presentaciones de usuarios de R que reflejen en amplio rango de en que se estaacuteusando R para analizar datos

Sesiones de poacutesters

Talleres

X

Informacioacuten uacutetil

TalleresLos participantes a los talleres deben traer su propio ordenador portaacutetil con las

herramientas que indiquen los responsables de talleres La inscripcioacuten de los talleres serealizaraacute durante la recepcioacuten Dado el limitado nuacutemero de plazas se reservaraacute plazapor orden de inscripcioacuten La ubicacioacuten de los talleres se haraacute en las siguientes aulas

Aula 16 (o aula de informaacutetica) Situada en la planta 0 (entrada de la EOI) A laderecha del saloacuten de actos sale un pasillo y a pocos pasos comienza otro pasillo ala izquierda (zona de Labs) Este segundo pasillo gira a la derecha hasta llegar alaula 16 con puerta blanca y sin etiquetar

Aula 17 (cercana a la biblioteca) La biblioteca estaacute situada en la planta 1 En laplanta 0 a la derecha del saloacuten de actos sale un pasillo desde el que comienzanunas escaleras de subida Al llegar a la planta 1 sale de frente un pasillo queconduce a la biblioteca Al llegar a la misma a la derecha hay un espacio conmesas y sillas que conecta con este aula (al final a la derecha)

Aulas 24 y 25 Situadas en la planta 2 En la planta 0 a la derecha del saloacuten deactos sale un pasillo desde el que comienzan unas escaleras de subida Al llegara la planta 2 empieza un pasillo a la izquierda En este pasillo estaacuten ubicadas lasdos aulas una a continuacioacuten de otra

CertificadosLos certificados se enviaraacuten por correo electroacutenico una vez pasadas las Jornadas

MaterialTodo el material incluyendo la propuesta de Estatutos estaacute disponible a traveacutes de

la paacutegina web de las Jornadas (httpusarorges) No se entregaraacute documentacioacutenadicional

XI

INFORMACIOacuteN UacuteTIL

WifiEn todo el edificio de la EOI se dispone de acceso abierto a una red wifi llamada

EOI-libre No requiere el uso de software especiacutefico ni alta inicial No habraacute disponibi-lidad de una sala de ordenadores

Espacios de encuentroDestacan tres zonas

La cafeteriacutea situada en la planta -1 En la planta 0 a la izquierda empieza unpasillo que termina en unas escaleras Bajando se llega a la cafeteriacutea

Los jardines que rodean todo el edificio Las previsiones meteoroloacutegicas para jue-ves y viernes indican cielos nublados pero baja probabilidad de lluvia con tem-peraturas maacuteximas inferiores a los 15ordmC

La sala adjunta a la biblioteca (ver indicaciones en Talleres aula 17) con mesasy sillas sillones y maacutequinas de refrescos y aperitivos

Lugares para comer y cenarAdemaacutes de la cafeteriacutea de la EOI el sitio maacutes cercano es el Cafeacute Glaceacute donde seraacute

la cena Todo lo que hay alrededor son colegios mayores institutos de investigacioacutenrectorado de la UPM etc Para encontrar maacutes sitios hay que salir de la zona de Metro-politano y subir hacia Reina Victoria (unos 10 minutos andando en cuesta)

XII

Comiteacute cientiacutefico

Ramoacuten Diacuteaz Uriarte

Virgilio Goacutemez Rubio

Juan R Gonzaacutelez

Manuel Muntildeoz Maacuterquez

Oscar Perpintildeaacuten Lamigueiro

Miguel Aacutengel Rodriacuteguez Muiacutentildeos

Gregorio R Serrano

XIII

Comiteacute organizador

Luis Mariano Esteban

Juan Jose Gibaja

Carlos J Gil Bellosta

Oscar Perpintildeaacuten Lamigueiro

Emilio Torres Manzanera

Secretariacutea TeacutecnicaTania Iglesias Cabo

Patricia Diaz

XIV

Patrocinadores

XV

Programa

JUEVES 17 DE NOVIEMBRE

bull 0900-0930 Recepcioacutenbull 0930-1000 Inauguracioacuten oficial de las Jornadas Tiacutescar Lara Vicedecana de Cultura Digital de la EOI Carlos J Gil Bellosta Comunidad de usuaRios

bull 1000-1100 Conferencia plenaria R paralelizacioacuten datos masivos y aplica-ciones web ejemplos del uso de R en bioinformaacutetica (Ramoacuten Diacuteaz Uriarte)(pdf)

bull 1100-1130 Descansobull 1130-1330 Mesa 1 Biostatnetbull 1330-1500 Descansobull 1500-1700 Mesa 2 Ambiental Espacial Miscelaacuteneabull 1500-1700 Talleres Estadiacutestica baacutesica en R con herramientas graacuteficas (Manuel Muntildeoz) Construccioacuten de paquetes (Juan Ramoacuten Gonzaacutelez)

bull 1700-1730 Descansobull 1730-1930 Mesa 3 Anaacutelisis de Datos Empresabull 1930-2030 Asamblea General y Constituyente de la Comunidad de Usua-

riosbull 2130 Cena

VIERNES 18 DE NOVIEMBRE

bull 1000-1200 Mesa 4 Web Informes Calidadbull 1200-1230 Descansobull 1230-1430 Mesa 5 Metodologiacutea Miscelaacuteneabull 1230-1430 Talleres Anaacutelisis de datos espacio-temporales con R (Virgilio Goacutemez) Preparacioacuten de informes perioacutedicos con R y Sweave (Gregorio Serrano) Crea interfaces Web 20 en R con software libre LAMP+Tiki+PluginR

(Xavier de Pedro)bull 1430-1445 Concurso Nestoria ponencia y entrega de premiosbull 1445-1500 Clausura Oficial de las Jornadas

XVI

Parte I

Biostatnet

UNA NUEVA RED INTERDISCIPLINAR DE BIOESTADIacuteSTICA (pdf)

Miguel Angel Rodriacuteguez Muiacutentildeos

1

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 8: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

IacuteNDICE GENERAL

33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada 46Jorge Luis Ojeda Cabrera

Universidad de Zaragoza

34 KDSeries Una libreriacutea destinada destinada al tratamiento de series tempo-rales en R 47

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada 48Luis Cayuela

Universidad Rey Juan Carlos

36 Adabag 20 una libreria de R para adaboostm1 y bagging 49Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea Rubio

Universidad de Castilla-La Mancha

37 Dating Business Cycle with R 50Ricardo Queralt

Dpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Net-work) 51

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

39 Nomogramas con R 52Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Uni-

versidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

VIConcurso Nestoria 53

40 Mapas temaacuteticos a tiempo real 54Sabarich Raquel

Autores e Instituciones 56

Iacutendice de autores 57

Iacutendice de Instituciones 59

VIII

Informacioacuten General

IX

Descripcioacuten

Las III Jornadas de Usuarios de R tendraacuten lugar en la Escuela de OrganizacioacutenIndustrial en Madrid los diacuteas 17 y 18 de noviembre de 2011 Las jornadas son el reflejode la importancia creciente de R en diversas aacutereas y disciplinas tanto en la universidadcomo fuera de ella Estaacuten abiertas a usuarios y entusiastas de R independientementede su filiacioacuten o aacuterea de intereacutes

De ahiacute que su objetivo sea

Proporcionar un punto de encuentro a los usuarios de R

Fomentar la colaboracioacuten entre ellos en un ambiente multidisciplinar

Divulgar el conocimiento del lenguaje y sus posibilidades

Promover el uso de R

Las jornadas constan de las siguientes partes

Ponencias invitadas

Presentaciones de usuarios de R que reflejen en amplio rango de en que se estaacuteusando R para analizar datos

Sesiones de poacutesters

Talleres

X

Informacioacuten uacutetil

TalleresLos participantes a los talleres deben traer su propio ordenador portaacutetil con las

herramientas que indiquen los responsables de talleres La inscripcioacuten de los talleres serealizaraacute durante la recepcioacuten Dado el limitado nuacutemero de plazas se reservaraacute plazapor orden de inscripcioacuten La ubicacioacuten de los talleres se haraacute en las siguientes aulas

Aula 16 (o aula de informaacutetica) Situada en la planta 0 (entrada de la EOI) A laderecha del saloacuten de actos sale un pasillo y a pocos pasos comienza otro pasillo ala izquierda (zona de Labs) Este segundo pasillo gira a la derecha hasta llegar alaula 16 con puerta blanca y sin etiquetar

Aula 17 (cercana a la biblioteca) La biblioteca estaacute situada en la planta 1 En laplanta 0 a la derecha del saloacuten de actos sale un pasillo desde el que comienzanunas escaleras de subida Al llegar a la planta 1 sale de frente un pasillo queconduce a la biblioteca Al llegar a la misma a la derecha hay un espacio conmesas y sillas que conecta con este aula (al final a la derecha)

Aulas 24 y 25 Situadas en la planta 2 En la planta 0 a la derecha del saloacuten deactos sale un pasillo desde el que comienzan unas escaleras de subida Al llegara la planta 2 empieza un pasillo a la izquierda En este pasillo estaacuten ubicadas lasdos aulas una a continuacioacuten de otra

CertificadosLos certificados se enviaraacuten por correo electroacutenico una vez pasadas las Jornadas

MaterialTodo el material incluyendo la propuesta de Estatutos estaacute disponible a traveacutes de

la paacutegina web de las Jornadas (httpusarorges) No se entregaraacute documentacioacutenadicional

XI

INFORMACIOacuteN UacuteTIL

WifiEn todo el edificio de la EOI se dispone de acceso abierto a una red wifi llamada

EOI-libre No requiere el uso de software especiacutefico ni alta inicial No habraacute disponibi-lidad de una sala de ordenadores

Espacios de encuentroDestacan tres zonas

La cafeteriacutea situada en la planta -1 En la planta 0 a la izquierda empieza unpasillo que termina en unas escaleras Bajando se llega a la cafeteriacutea

Los jardines que rodean todo el edificio Las previsiones meteoroloacutegicas para jue-ves y viernes indican cielos nublados pero baja probabilidad de lluvia con tem-peraturas maacuteximas inferiores a los 15ordmC

La sala adjunta a la biblioteca (ver indicaciones en Talleres aula 17) con mesasy sillas sillones y maacutequinas de refrescos y aperitivos

Lugares para comer y cenarAdemaacutes de la cafeteriacutea de la EOI el sitio maacutes cercano es el Cafeacute Glaceacute donde seraacute

la cena Todo lo que hay alrededor son colegios mayores institutos de investigacioacutenrectorado de la UPM etc Para encontrar maacutes sitios hay que salir de la zona de Metro-politano y subir hacia Reina Victoria (unos 10 minutos andando en cuesta)

XII

Comiteacute cientiacutefico

Ramoacuten Diacuteaz Uriarte

Virgilio Goacutemez Rubio

Juan R Gonzaacutelez

Manuel Muntildeoz Maacuterquez

Oscar Perpintildeaacuten Lamigueiro

Miguel Aacutengel Rodriacuteguez Muiacutentildeos

Gregorio R Serrano

XIII

Comiteacute organizador

Luis Mariano Esteban

Juan Jose Gibaja

Carlos J Gil Bellosta

Oscar Perpintildeaacuten Lamigueiro

Emilio Torres Manzanera

Secretariacutea TeacutecnicaTania Iglesias Cabo

Patricia Diaz

XIV

Patrocinadores

XV

Programa

JUEVES 17 DE NOVIEMBRE

bull 0900-0930 Recepcioacutenbull 0930-1000 Inauguracioacuten oficial de las Jornadas Tiacutescar Lara Vicedecana de Cultura Digital de la EOI Carlos J Gil Bellosta Comunidad de usuaRios

bull 1000-1100 Conferencia plenaria R paralelizacioacuten datos masivos y aplica-ciones web ejemplos del uso de R en bioinformaacutetica (Ramoacuten Diacuteaz Uriarte)(pdf)

bull 1100-1130 Descansobull 1130-1330 Mesa 1 Biostatnetbull 1330-1500 Descansobull 1500-1700 Mesa 2 Ambiental Espacial Miscelaacuteneabull 1500-1700 Talleres Estadiacutestica baacutesica en R con herramientas graacuteficas (Manuel Muntildeoz) Construccioacuten de paquetes (Juan Ramoacuten Gonzaacutelez)

bull 1700-1730 Descansobull 1730-1930 Mesa 3 Anaacutelisis de Datos Empresabull 1930-2030 Asamblea General y Constituyente de la Comunidad de Usua-

riosbull 2130 Cena

VIERNES 18 DE NOVIEMBRE

bull 1000-1200 Mesa 4 Web Informes Calidadbull 1200-1230 Descansobull 1230-1430 Mesa 5 Metodologiacutea Miscelaacuteneabull 1230-1430 Talleres Anaacutelisis de datos espacio-temporales con R (Virgilio Goacutemez) Preparacioacuten de informes perioacutedicos con R y Sweave (Gregorio Serrano) Crea interfaces Web 20 en R con software libre LAMP+Tiki+PluginR

(Xavier de Pedro)bull 1430-1445 Concurso Nestoria ponencia y entrega de premiosbull 1445-1500 Clausura Oficial de las Jornadas

XVI

Parte I

Biostatnet

UNA NUEVA RED INTERDISCIPLINAR DE BIOESTADIacuteSTICA (pdf)

Miguel Angel Rodriacuteguez Muiacutentildeos

1

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 9: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Informacioacuten General

IX

Descripcioacuten

Las III Jornadas de Usuarios de R tendraacuten lugar en la Escuela de OrganizacioacutenIndustrial en Madrid los diacuteas 17 y 18 de noviembre de 2011 Las jornadas son el reflejode la importancia creciente de R en diversas aacutereas y disciplinas tanto en la universidadcomo fuera de ella Estaacuten abiertas a usuarios y entusiastas de R independientementede su filiacioacuten o aacuterea de intereacutes

De ahiacute que su objetivo sea

Proporcionar un punto de encuentro a los usuarios de R

Fomentar la colaboracioacuten entre ellos en un ambiente multidisciplinar

Divulgar el conocimiento del lenguaje y sus posibilidades

Promover el uso de R

Las jornadas constan de las siguientes partes

Ponencias invitadas

Presentaciones de usuarios de R que reflejen en amplio rango de en que se estaacuteusando R para analizar datos

Sesiones de poacutesters

Talleres

X

Informacioacuten uacutetil

TalleresLos participantes a los talleres deben traer su propio ordenador portaacutetil con las

herramientas que indiquen los responsables de talleres La inscripcioacuten de los talleres serealizaraacute durante la recepcioacuten Dado el limitado nuacutemero de plazas se reservaraacute plazapor orden de inscripcioacuten La ubicacioacuten de los talleres se haraacute en las siguientes aulas

Aula 16 (o aula de informaacutetica) Situada en la planta 0 (entrada de la EOI) A laderecha del saloacuten de actos sale un pasillo y a pocos pasos comienza otro pasillo ala izquierda (zona de Labs) Este segundo pasillo gira a la derecha hasta llegar alaula 16 con puerta blanca y sin etiquetar

Aula 17 (cercana a la biblioteca) La biblioteca estaacute situada en la planta 1 En laplanta 0 a la derecha del saloacuten de actos sale un pasillo desde el que comienzanunas escaleras de subida Al llegar a la planta 1 sale de frente un pasillo queconduce a la biblioteca Al llegar a la misma a la derecha hay un espacio conmesas y sillas que conecta con este aula (al final a la derecha)

Aulas 24 y 25 Situadas en la planta 2 En la planta 0 a la derecha del saloacuten deactos sale un pasillo desde el que comienzan unas escaleras de subida Al llegara la planta 2 empieza un pasillo a la izquierda En este pasillo estaacuten ubicadas lasdos aulas una a continuacioacuten de otra

CertificadosLos certificados se enviaraacuten por correo electroacutenico una vez pasadas las Jornadas

MaterialTodo el material incluyendo la propuesta de Estatutos estaacute disponible a traveacutes de

la paacutegina web de las Jornadas (httpusarorges) No se entregaraacute documentacioacutenadicional

XI

INFORMACIOacuteN UacuteTIL

WifiEn todo el edificio de la EOI se dispone de acceso abierto a una red wifi llamada

EOI-libre No requiere el uso de software especiacutefico ni alta inicial No habraacute disponibi-lidad de una sala de ordenadores

Espacios de encuentroDestacan tres zonas

La cafeteriacutea situada en la planta -1 En la planta 0 a la izquierda empieza unpasillo que termina en unas escaleras Bajando se llega a la cafeteriacutea

Los jardines que rodean todo el edificio Las previsiones meteoroloacutegicas para jue-ves y viernes indican cielos nublados pero baja probabilidad de lluvia con tem-peraturas maacuteximas inferiores a los 15ordmC

La sala adjunta a la biblioteca (ver indicaciones en Talleres aula 17) con mesasy sillas sillones y maacutequinas de refrescos y aperitivos

Lugares para comer y cenarAdemaacutes de la cafeteriacutea de la EOI el sitio maacutes cercano es el Cafeacute Glaceacute donde seraacute

la cena Todo lo que hay alrededor son colegios mayores institutos de investigacioacutenrectorado de la UPM etc Para encontrar maacutes sitios hay que salir de la zona de Metro-politano y subir hacia Reina Victoria (unos 10 minutos andando en cuesta)

XII

Comiteacute cientiacutefico

Ramoacuten Diacuteaz Uriarte

Virgilio Goacutemez Rubio

Juan R Gonzaacutelez

Manuel Muntildeoz Maacuterquez

Oscar Perpintildeaacuten Lamigueiro

Miguel Aacutengel Rodriacuteguez Muiacutentildeos

Gregorio R Serrano

XIII

Comiteacute organizador

Luis Mariano Esteban

Juan Jose Gibaja

Carlos J Gil Bellosta

Oscar Perpintildeaacuten Lamigueiro

Emilio Torres Manzanera

Secretariacutea TeacutecnicaTania Iglesias Cabo

Patricia Diaz

XIV

Patrocinadores

XV

Programa

JUEVES 17 DE NOVIEMBRE

bull 0900-0930 Recepcioacutenbull 0930-1000 Inauguracioacuten oficial de las Jornadas Tiacutescar Lara Vicedecana de Cultura Digital de la EOI Carlos J Gil Bellosta Comunidad de usuaRios

bull 1000-1100 Conferencia plenaria R paralelizacioacuten datos masivos y aplica-ciones web ejemplos del uso de R en bioinformaacutetica (Ramoacuten Diacuteaz Uriarte)(pdf)

bull 1100-1130 Descansobull 1130-1330 Mesa 1 Biostatnetbull 1330-1500 Descansobull 1500-1700 Mesa 2 Ambiental Espacial Miscelaacuteneabull 1500-1700 Talleres Estadiacutestica baacutesica en R con herramientas graacuteficas (Manuel Muntildeoz) Construccioacuten de paquetes (Juan Ramoacuten Gonzaacutelez)

bull 1700-1730 Descansobull 1730-1930 Mesa 3 Anaacutelisis de Datos Empresabull 1930-2030 Asamblea General y Constituyente de la Comunidad de Usua-

riosbull 2130 Cena

VIERNES 18 DE NOVIEMBRE

bull 1000-1200 Mesa 4 Web Informes Calidadbull 1200-1230 Descansobull 1230-1430 Mesa 5 Metodologiacutea Miscelaacuteneabull 1230-1430 Talleres Anaacutelisis de datos espacio-temporales con R (Virgilio Goacutemez) Preparacioacuten de informes perioacutedicos con R y Sweave (Gregorio Serrano) Crea interfaces Web 20 en R con software libre LAMP+Tiki+PluginR

(Xavier de Pedro)bull 1430-1445 Concurso Nestoria ponencia y entrega de premiosbull 1445-1500 Clausura Oficial de las Jornadas

XVI

Parte I

Biostatnet

UNA NUEVA RED INTERDISCIPLINAR DE BIOESTADIacuteSTICA (pdf)

Miguel Angel Rodriacuteguez Muiacutentildeos

1

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 10: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Descripcioacuten

Las III Jornadas de Usuarios de R tendraacuten lugar en la Escuela de OrganizacioacutenIndustrial en Madrid los diacuteas 17 y 18 de noviembre de 2011 Las jornadas son el reflejode la importancia creciente de R en diversas aacutereas y disciplinas tanto en la universidadcomo fuera de ella Estaacuten abiertas a usuarios y entusiastas de R independientementede su filiacioacuten o aacuterea de intereacutes

De ahiacute que su objetivo sea

Proporcionar un punto de encuentro a los usuarios de R

Fomentar la colaboracioacuten entre ellos en un ambiente multidisciplinar

Divulgar el conocimiento del lenguaje y sus posibilidades

Promover el uso de R

Las jornadas constan de las siguientes partes

Ponencias invitadas

Presentaciones de usuarios de R que reflejen en amplio rango de en que se estaacuteusando R para analizar datos

Sesiones de poacutesters

Talleres

X

Informacioacuten uacutetil

TalleresLos participantes a los talleres deben traer su propio ordenador portaacutetil con las

herramientas que indiquen los responsables de talleres La inscripcioacuten de los talleres serealizaraacute durante la recepcioacuten Dado el limitado nuacutemero de plazas se reservaraacute plazapor orden de inscripcioacuten La ubicacioacuten de los talleres se haraacute en las siguientes aulas

Aula 16 (o aula de informaacutetica) Situada en la planta 0 (entrada de la EOI) A laderecha del saloacuten de actos sale un pasillo y a pocos pasos comienza otro pasillo ala izquierda (zona de Labs) Este segundo pasillo gira a la derecha hasta llegar alaula 16 con puerta blanca y sin etiquetar

Aula 17 (cercana a la biblioteca) La biblioteca estaacute situada en la planta 1 En laplanta 0 a la derecha del saloacuten de actos sale un pasillo desde el que comienzanunas escaleras de subida Al llegar a la planta 1 sale de frente un pasillo queconduce a la biblioteca Al llegar a la misma a la derecha hay un espacio conmesas y sillas que conecta con este aula (al final a la derecha)

Aulas 24 y 25 Situadas en la planta 2 En la planta 0 a la derecha del saloacuten deactos sale un pasillo desde el que comienzan unas escaleras de subida Al llegara la planta 2 empieza un pasillo a la izquierda En este pasillo estaacuten ubicadas lasdos aulas una a continuacioacuten de otra

CertificadosLos certificados se enviaraacuten por correo electroacutenico una vez pasadas las Jornadas

MaterialTodo el material incluyendo la propuesta de Estatutos estaacute disponible a traveacutes de

la paacutegina web de las Jornadas (httpusarorges) No se entregaraacute documentacioacutenadicional

XI

INFORMACIOacuteN UacuteTIL

WifiEn todo el edificio de la EOI se dispone de acceso abierto a una red wifi llamada

EOI-libre No requiere el uso de software especiacutefico ni alta inicial No habraacute disponibi-lidad de una sala de ordenadores

Espacios de encuentroDestacan tres zonas

La cafeteriacutea situada en la planta -1 En la planta 0 a la izquierda empieza unpasillo que termina en unas escaleras Bajando se llega a la cafeteriacutea

Los jardines que rodean todo el edificio Las previsiones meteoroloacutegicas para jue-ves y viernes indican cielos nublados pero baja probabilidad de lluvia con tem-peraturas maacuteximas inferiores a los 15ordmC

La sala adjunta a la biblioteca (ver indicaciones en Talleres aula 17) con mesasy sillas sillones y maacutequinas de refrescos y aperitivos

Lugares para comer y cenarAdemaacutes de la cafeteriacutea de la EOI el sitio maacutes cercano es el Cafeacute Glaceacute donde seraacute

la cena Todo lo que hay alrededor son colegios mayores institutos de investigacioacutenrectorado de la UPM etc Para encontrar maacutes sitios hay que salir de la zona de Metro-politano y subir hacia Reina Victoria (unos 10 minutos andando en cuesta)

XII

Comiteacute cientiacutefico

Ramoacuten Diacuteaz Uriarte

Virgilio Goacutemez Rubio

Juan R Gonzaacutelez

Manuel Muntildeoz Maacuterquez

Oscar Perpintildeaacuten Lamigueiro

Miguel Aacutengel Rodriacuteguez Muiacutentildeos

Gregorio R Serrano

XIII

Comiteacute organizador

Luis Mariano Esteban

Juan Jose Gibaja

Carlos J Gil Bellosta

Oscar Perpintildeaacuten Lamigueiro

Emilio Torres Manzanera

Secretariacutea TeacutecnicaTania Iglesias Cabo

Patricia Diaz

XIV

Patrocinadores

XV

Programa

JUEVES 17 DE NOVIEMBRE

bull 0900-0930 Recepcioacutenbull 0930-1000 Inauguracioacuten oficial de las Jornadas Tiacutescar Lara Vicedecana de Cultura Digital de la EOI Carlos J Gil Bellosta Comunidad de usuaRios

bull 1000-1100 Conferencia plenaria R paralelizacioacuten datos masivos y aplica-ciones web ejemplos del uso de R en bioinformaacutetica (Ramoacuten Diacuteaz Uriarte)(pdf)

bull 1100-1130 Descansobull 1130-1330 Mesa 1 Biostatnetbull 1330-1500 Descansobull 1500-1700 Mesa 2 Ambiental Espacial Miscelaacuteneabull 1500-1700 Talleres Estadiacutestica baacutesica en R con herramientas graacuteficas (Manuel Muntildeoz) Construccioacuten de paquetes (Juan Ramoacuten Gonzaacutelez)

bull 1700-1730 Descansobull 1730-1930 Mesa 3 Anaacutelisis de Datos Empresabull 1930-2030 Asamblea General y Constituyente de la Comunidad de Usua-

riosbull 2130 Cena

VIERNES 18 DE NOVIEMBRE

bull 1000-1200 Mesa 4 Web Informes Calidadbull 1200-1230 Descansobull 1230-1430 Mesa 5 Metodologiacutea Miscelaacuteneabull 1230-1430 Talleres Anaacutelisis de datos espacio-temporales con R (Virgilio Goacutemez) Preparacioacuten de informes perioacutedicos con R y Sweave (Gregorio Serrano) Crea interfaces Web 20 en R con software libre LAMP+Tiki+PluginR

(Xavier de Pedro)bull 1430-1445 Concurso Nestoria ponencia y entrega de premiosbull 1445-1500 Clausura Oficial de las Jornadas

XVI

Parte I

Biostatnet

UNA NUEVA RED INTERDISCIPLINAR DE BIOESTADIacuteSTICA (pdf)

Miguel Angel Rodriacuteguez Muiacutentildeos

1

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 11: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Informacioacuten uacutetil

TalleresLos participantes a los talleres deben traer su propio ordenador portaacutetil con las

herramientas que indiquen los responsables de talleres La inscripcioacuten de los talleres serealizaraacute durante la recepcioacuten Dado el limitado nuacutemero de plazas se reservaraacute plazapor orden de inscripcioacuten La ubicacioacuten de los talleres se haraacute en las siguientes aulas

Aula 16 (o aula de informaacutetica) Situada en la planta 0 (entrada de la EOI) A laderecha del saloacuten de actos sale un pasillo y a pocos pasos comienza otro pasillo ala izquierda (zona de Labs) Este segundo pasillo gira a la derecha hasta llegar alaula 16 con puerta blanca y sin etiquetar

Aula 17 (cercana a la biblioteca) La biblioteca estaacute situada en la planta 1 En laplanta 0 a la derecha del saloacuten de actos sale un pasillo desde el que comienzanunas escaleras de subida Al llegar a la planta 1 sale de frente un pasillo queconduce a la biblioteca Al llegar a la misma a la derecha hay un espacio conmesas y sillas que conecta con este aula (al final a la derecha)

Aulas 24 y 25 Situadas en la planta 2 En la planta 0 a la derecha del saloacuten deactos sale un pasillo desde el que comienzan unas escaleras de subida Al llegara la planta 2 empieza un pasillo a la izquierda En este pasillo estaacuten ubicadas lasdos aulas una a continuacioacuten de otra

CertificadosLos certificados se enviaraacuten por correo electroacutenico una vez pasadas las Jornadas

MaterialTodo el material incluyendo la propuesta de Estatutos estaacute disponible a traveacutes de

la paacutegina web de las Jornadas (httpusarorges) No se entregaraacute documentacioacutenadicional

XI

INFORMACIOacuteN UacuteTIL

WifiEn todo el edificio de la EOI se dispone de acceso abierto a una red wifi llamada

EOI-libre No requiere el uso de software especiacutefico ni alta inicial No habraacute disponibi-lidad de una sala de ordenadores

Espacios de encuentroDestacan tres zonas

La cafeteriacutea situada en la planta -1 En la planta 0 a la izquierda empieza unpasillo que termina en unas escaleras Bajando se llega a la cafeteriacutea

Los jardines que rodean todo el edificio Las previsiones meteoroloacutegicas para jue-ves y viernes indican cielos nublados pero baja probabilidad de lluvia con tem-peraturas maacuteximas inferiores a los 15ordmC

La sala adjunta a la biblioteca (ver indicaciones en Talleres aula 17) con mesasy sillas sillones y maacutequinas de refrescos y aperitivos

Lugares para comer y cenarAdemaacutes de la cafeteriacutea de la EOI el sitio maacutes cercano es el Cafeacute Glaceacute donde seraacute

la cena Todo lo que hay alrededor son colegios mayores institutos de investigacioacutenrectorado de la UPM etc Para encontrar maacutes sitios hay que salir de la zona de Metro-politano y subir hacia Reina Victoria (unos 10 minutos andando en cuesta)

XII

Comiteacute cientiacutefico

Ramoacuten Diacuteaz Uriarte

Virgilio Goacutemez Rubio

Juan R Gonzaacutelez

Manuel Muntildeoz Maacuterquez

Oscar Perpintildeaacuten Lamigueiro

Miguel Aacutengel Rodriacuteguez Muiacutentildeos

Gregorio R Serrano

XIII

Comiteacute organizador

Luis Mariano Esteban

Juan Jose Gibaja

Carlos J Gil Bellosta

Oscar Perpintildeaacuten Lamigueiro

Emilio Torres Manzanera

Secretariacutea TeacutecnicaTania Iglesias Cabo

Patricia Diaz

XIV

Patrocinadores

XV

Programa

JUEVES 17 DE NOVIEMBRE

bull 0900-0930 Recepcioacutenbull 0930-1000 Inauguracioacuten oficial de las Jornadas Tiacutescar Lara Vicedecana de Cultura Digital de la EOI Carlos J Gil Bellosta Comunidad de usuaRios

bull 1000-1100 Conferencia plenaria R paralelizacioacuten datos masivos y aplica-ciones web ejemplos del uso de R en bioinformaacutetica (Ramoacuten Diacuteaz Uriarte)(pdf)

bull 1100-1130 Descansobull 1130-1330 Mesa 1 Biostatnetbull 1330-1500 Descansobull 1500-1700 Mesa 2 Ambiental Espacial Miscelaacuteneabull 1500-1700 Talleres Estadiacutestica baacutesica en R con herramientas graacuteficas (Manuel Muntildeoz) Construccioacuten de paquetes (Juan Ramoacuten Gonzaacutelez)

bull 1700-1730 Descansobull 1730-1930 Mesa 3 Anaacutelisis de Datos Empresabull 1930-2030 Asamblea General y Constituyente de la Comunidad de Usua-

riosbull 2130 Cena

VIERNES 18 DE NOVIEMBRE

bull 1000-1200 Mesa 4 Web Informes Calidadbull 1200-1230 Descansobull 1230-1430 Mesa 5 Metodologiacutea Miscelaacuteneabull 1230-1430 Talleres Anaacutelisis de datos espacio-temporales con R (Virgilio Goacutemez) Preparacioacuten de informes perioacutedicos con R y Sweave (Gregorio Serrano) Crea interfaces Web 20 en R con software libre LAMP+Tiki+PluginR

(Xavier de Pedro)bull 1430-1445 Concurso Nestoria ponencia y entrega de premiosbull 1445-1500 Clausura Oficial de las Jornadas

XVI

Parte I

Biostatnet

UNA NUEVA RED INTERDISCIPLINAR DE BIOESTADIacuteSTICA (pdf)

Miguel Angel Rodriacuteguez Muiacutentildeos

1

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 12: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

INFORMACIOacuteN UacuteTIL

WifiEn todo el edificio de la EOI se dispone de acceso abierto a una red wifi llamada

EOI-libre No requiere el uso de software especiacutefico ni alta inicial No habraacute disponibi-lidad de una sala de ordenadores

Espacios de encuentroDestacan tres zonas

La cafeteriacutea situada en la planta -1 En la planta 0 a la izquierda empieza unpasillo que termina en unas escaleras Bajando se llega a la cafeteriacutea

Los jardines que rodean todo el edificio Las previsiones meteoroloacutegicas para jue-ves y viernes indican cielos nublados pero baja probabilidad de lluvia con tem-peraturas maacuteximas inferiores a los 15ordmC

La sala adjunta a la biblioteca (ver indicaciones en Talleres aula 17) con mesasy sillas sillones y maacutequinas de refrescos y aperitivos

Lugares para comer y cenarAdemaacutes de la cafeteriacutea de la EOI el sitio maacutes cercano es el Cafeacute Glaceacute donde seraacute

la cena Todo lo que hay alrededor son colegios mayores institutos de investigacioacutenrectorado de la UPM etc Para encontrar maacutes sitios hay que salir de la zona de Metro-politano y subir hacia Reina Victoria (unos 10 minutos andando en cuesta)

XII

Comiteacute cientiacutefico

Ramoacuten Diacuteaz Uriarte

Virgilio Goacutemez Rubio

Juan R Gonzaacutelez

Manuel Muntildeoz Maacuterquez

Oscar Perpintildeaacuten Lamigueiro

Miguel Aacutengel Rodriacuteguez Muiacutentildeos

Gregorio R Serrano

XIII

Comiteacute organizador

Luis Mariano Esteban

Juan Jose Gibaja

Carlos J Gil Bellosta

Oscar Perpintildeaacuten Lamigueiro

Emilio Torres Manzanera

Secretariacutea TeacutecnicaTania Iglesias Cabo

Patricia Diaz

XIV

Patrocinadores

XV

Programa

JUEVES 17 DE NOVIEMBRE

bull 0900-0930 Recepcioacutenbull 0930-1000 Inauguracioacuten oficial de las Jornadas Tiacutescar Lara Vicedecana de Cultura Digital de la EOI Carlos J Gil Bellosta Comunidad de usuaRios

bull 1000-1100 Conferencia plenaria R paralelizacioacuten datos masivos y aplica-ciones web ejemplos del uso de R en bioinformaacutetica (Ramoacuten Diacuteaz Uriarte)(pdf)

bull 1100-1130 Descansobull 1130-1330 Mesa 1 Biostatnetbull 1330-1500 Descansobull 1500-1700 Mesa 2 Ambiental Espacial Miscelaacuteneabull 1500-1700 Talleres Estadiacutestica baacutesica en R con herramientas graacuteficas (Manuel Muntildeoz) Construccioacuten de paquetes (Juan Ramoacuten Gonzaacutelez)

bull 1700-1730 Descansobull 1730-1930 Mesa 3 Anaacutelisis de Datos Empresabull 1930-2030 Asamblea General y Constituyente de la Comunidad de Usua-

riosbull 2130 Cena

VIERNES 18 DE NOVIEMBRE

bull 1000-1200 Mesa 4 Web Informes Calidadbull 1200-1230 Descansobull 1230-1430 Mesa 5 Metodologiacutea Miscelaacuteneabull 1230-1430 Talleres Anaacutelisis de datos espacio-temporales con R (Virgilio Goacutemez) Preparacioacuten de informes perioacutedicos con R y Sweave (Gregorio Serrano) Crea interfaces Web 20 en R con software libre LAMP+Tiki+PluginR

(Xavier de Pedro)bull 1430-1445 Concurso Nestoria ponencia y entrega de premiosbull 1445-1500 Clausura Oficial de las Jornadas

XVI

Parte I

Biostatnet

UNA NUEVA RED INTERDISCIPLINAR DE BIOESTADIacuteSTICA (pdf)

Miguel Angel Rodriacuteguez Muiacutentildeos

1

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 13: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Comiteacute cientiacutefico

Ramoacuten Diacuteaz Uriarte

Virgilio Goacutemez Rubio

Juan R Gonzaacutelez

Manuel Muntildeoz Maacuterquez

Oscar Perpintildeaacuten Lamigueiro

Miguel Aacutengel Rodriacuteguez Muiacutentildeos

Gregorio R Serrano

XIII

Comiteacute organizador

Luis Mariano Esteban

Juan Jose Gibaja

Carlos J Gil Bellosta

Oscar Perpintildeaacuten Lamigueiro

Emilio Torres Manzanera

Secretariacutea TeacutecnicaTania Iglesias Cabo

Patricia Diaz

XIV

Patrocinadores

XV

Programa

JUEVES 17 DE NOVIEMBRE

bull 0900-0930 Recepcioacutenbull 0930-1000 Inauguracioacuten oficial de las Jornadas Tiacutescar Lara Vicedecana de Cultura Digital de la EOI Carlos J Gil Bellosta Comunidad de usuaRios

bull 1000-1100 Conferencia plenaria R paralelizacioacuten datos masivos y aplica-ciones web ejemplos del uso de R en bioinformaacutetica (Ramoacuten Diacuteaz Uriarte)(pdf)

bull 1100-1130 Descansobull 1130-1330 Mesa 1 Biostatnetbull 1330-1500 Descansobull 1500-1700 Mesa 2 Ambiental Espacial Miscelaacuteneabull 1500-1700 Talleres Estadiacutestica baacutesica en R con herramientas graacuteficas (Manuel Muntildeoz) Construccioacuten de paquetes (Juan Ramoacuten Gonzaacutelez)

bull 1700-1730 Descansobull 1730-1930 Mesa 3 Anaacutelisis de Datos Empresabull 1930-2030 Asamblea General y Constituyente de la Comunidad de Usua-

riosbull 2130 Cena

VIERNES 18 DE NOVIEMBRE

bull 1000-1200 Mesa 4 Web Informes Calidadbull 1200-1230 Descansobull 1230-1430 Mesa 5 Metodologiacutea Miscelaacuteneabull 1230-1430 Talleres Anaacutelisis de datos espacio-temporales con R (Virgilio Goacutemez) Preparacioacuten de informes perioacutedicos con R y Sweave (Gregorio Serrano) Crea interfaces Web 20 en R con software libre LAMP+Tiki+PluginR

(Xavier de Pedro)bull 1430-1445 Concurso Nestoria ponencia y entrega de premiosbull 1445-1500 Clausura Oficial de las Jornadas

XVI

Parte I

Biostatnet

UNA NUEVA RED INTERDISCIPLINAR DE BIOESTADIacuteSTICA (pdf)

Miguel Angel Rodriacuteguez Muiacutentildeos

1

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 14: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Comiteacute organizador

Luis Mariano Esteban

Juan Jose Gibaja

Carlos J Gil Bellosta

Oscar Perpintildeaacuten Lamigueiro

Emilio Torres Manzanera

Secretariacutea TeacutecnicaTania Iglesias Cabo

Patricia Diaz

XIV

Patrocinadores

XV

Programa

JUEVES 17 DE NOVIEMBRE

bull 0900-0930 Recepcioacutenbull 0930-1000 Inauguracioacuten oficial de las Jornadas Tiacutescar Lara Vicedecana de Cultura Digital de la EOI Carlos J Gil Bellosta Comunidad de usuaRios

bull 1000-1100 Conferencia plenaria R paralelizacioacuten datos masivos y aplica-ciones web ejemplos del uso de R en bioinformaacutetica (Ramoacuten Diacuteaz Uriarte)(pdf)

bull 1100-1130 Descansobull 1130-1330 Mesa 1 Biostatnetbull 1330-1500 Descansobull 1500-1700 Mesa 2 Ambiental Espacial Miscelaacuteneabull 1500-1700 Talleres Estadiacutestica baacutesica en R con herramientas graacuteficas (Manuel Muntildeoz) Construccioacuten de paquetes (Juan Ramoacuten Gonzaacutelez)

bull 1700-1730 Descansobull 1730-1930 Mesa 3 Anaacutelisis de Datos Empresabull 1930-2030 Asamblea General y Constituyente de la Comunidad de Usua-

riosbull 2130 Cena

VIERNES 18 DE NOVIEMBRE

bull 1000-1200 Mesa 4 Web Informes Calidadbull 1200-1230 Descansobull 1230-1430 Mesa 5 Metodologiacutea Miscelaacuteneabull 1230-1430 Talleres Anaacutelisis de datos espacio-temporales con R (Virgilio Goacutemez) Preparacioacuten de informes perioacutedicos con R y Sweave (Gregorio Serrano) Crea interfaces Web 20 en R con software libre LAMP+Tiki+PluginR

(Xavier de Pedro)bull 1430-1445 Concurso Nestoria ponencia y entrega de premiosbull 1445-1500 Clausura Oficial de las Jornadas

XVI

Parte I

Biostatnet

UNA NUEVA RED INTERDISCIPLINAR DE BIOESTADIacuteSTICA (pdf)

Miguel Angel Rodriacuteguez Muiacutentildeos

1

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 15: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Patrocinadores

XV

Programa

JUEVES 17 DE NOVIEMBRE

bull 0900-0930 Recepcioacutenbull 0930-1000 Inauguracioacuten oficial de las Jornadas Tiacutescar Lara Vicedecana de Cultura Digital de la EOI Carlos J Gil Bellosta Comunidad de usuaRios

bull 1000-1100 Conferencia plenaria R paralelizacioacuten datos masivos y aplica-ciones web ejemplos del uso de R en bioinformaacutetica (Ramoacuten Diacuteaz Uriarte)(pdf)

bull 1100-1130 Descansobull 1130-1330 Mesa 1 Biostatnetbull 1330-1500 Descansobull 1500-1700 Mesa 2 Ambiental Espacial Miscelaacuteneabull 1500-1700 Talleres Estadiacutestica baacutesica en R con herramientas graacuteficas (Manuel Muntildeoz) Construccioacuten de paquetes (Juan Ramoacuten Gonzaacutelez)

bull 1700-1730 Descansobull 1730-1930 Mesa 3 Anaacutelisis de Datos Empresabull 1930-2030 Asamblea General y Constituyente de la Comunidad de Usua-

riosbull 2130 Cena

VIERNES 18 DE NOVIEMBRE

bull 1000-1200 Mesa 4 Web Informes Calidadbull 1200-1230 Descansobull 1230-1430 Mesa 5 Metodologiacutea Miscelaacuteneabull 1230-1430 Talleres Anaacutelisis de datos espacio-temporales con R (Virgilio Goacutemez) Preparacioacuten de informes perioacutedicos con R y Sweave (Gregorio Serrano) Crea interfaces Web 20 en R con software libre LAMP+Tiki+PluginR

(Xavier de Pedro)bull 1430-1445 Concurso Nestoria ponencia y entrega de premiosbull 1445-1500 Clausura Oficial de las Jornadas

XVI

Parte I

Biostatnet

UNA NUEVA RED INTERDISCIPLINAR DE BIOESTADIacuteSTICA (pdf)

Miguel Angel Rodriacuteguez Muiacutentildeos

1

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 16: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Programa

JUEVES 17 DE NOVIEMBRE

bull 0900-0930 Recepcioacutenbull 0930-1000 Inauguracioacuten oficial de las Jornadas Tiacutescar Lara Vicedecana de Cultura Digital de la EOI Carlos J Gil Bellosta Comunidad de usuaRios

bull 1000-1100 Conferencia plenaria R paralelizacioacuten datos masivos y aplica-ciones web ejemplos del uso de R en bioinformaacutetica (Ramoacuten Diacuteaz Uriarte)(pdf)

bull 1100-1130 Descansobull 1130-1330 Mesa 1 Biostatnetbull 1330-1500 Descansobull 1500-1700 Mesa 2 Ambiental Espacial Miscelaacuteneabull 1500-1700 Talleres Estadiacutestica baacutesica en R con herramientas graacuteficas (Manuel Muntildeoz) Construccioacuten de paquetes (Juan Ramoacuten Gonzaacutelez)

bull 1700-1730 Descansobull 1730-1930 Mesa 3 Anaacutelisis de Datos Empresabull 1930-2030 Asamblea General y Constituyente de la Comunidad de Usua-

riosbull 2130 Cena

VIERNES 18 DE NOVIEMBRE

bull 1000-1200 Mesa 4 Web Informes Calidadbull 1200-1230 Descansobull 1230-1430 Mesa 5 Metodologiacutea Miscelaacuteneabull 1230-1430 Talleres Anaacutelisis de datos espacio-temporales con R (Virgilio Goacutemez) Preparacioacuten de informes perioacutedicos con R y Sweave (Gregorio Serrano) Crea interfaces Web 20 en R con software libre LAMP+Tiki+PluginR

(Xavier de Pedro)bull 1430-1445 Concurso Nestoria ponencia y entrega de premiosbull 1445-1500 Clausura Oficial de las Jornadas

XVI

Parte I

Biostatnet

UNA NUEVA RED INTERDISCIPLINAR DE BIOESTADIacuteSTICA (pdf)

Miguel Angel Rodriacuteguez Muiacutentildeos

1

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 17: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Parte I

Biostatnet

UNA NUEVA RED INTERDISCIPLINAR DE BIOESTADIacuteSTICA (pdf)

Miguel Angel Rodriacuteguez Muiacutentildeos

1

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 18: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

1 An R Package for the inference in amulti-state illness-death model

Luiacutes Meira-MachadoDepartment of Mathematics and Applications University of Minho Portugal

COMUNICACIOacuteN (PDF)

In many medical studies patients can experience several events If the events re-present different states they are usually modeled through their intensity functions viathe so-called multi-state models In the multi-state framework issues of interest in-clude the study of the relationship between covariates and disease evolution and theestimation of transition probabilities In this work we consider these two topics usingp3statemsm a software application for R We describe the capabilities of the programfor estimating semi-parametric regression models and for implementing nonparame-tric estimators for several quantities We are currently working on a new R-based pac-kage which will implement several methods for estimating the transition probabilitiesA brief presentation of this package will also be given

2

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 19: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

2 AUCRF una libreriacutea para labuacutesqueda de perfiles geneacuteticos

Viacutector Urrea Gales y M Luz CalleDept Biologiacutea de Sistemas Universitat de Vic

COMUNICACIOacuteN (PDF)

Uno de los objetivos principales en el estudio de las enfermedades complejas he-reditarias es la identificacioacuten de perfiles geneacuteticos de riesgo es decir la seleccioacuten delconjunto de variantes geneacuteticas en el genoma humano que mejor predicen el riesgo in-dividual a desarrollar la enfermedad Para ello se pueden utilizar distintas teacutecnicas dedata-mining entre las que se encuentra el Random Forest una metodologiacutea propuestapor Leo Breiman (2001) que consiste en la agregacioacuten de muacuteltiples aacuterboles de clasifica-cioacuten y que proporciona un ranking de las variables en funcioacuten de su relevancia en elproceso de clasificacioacuten Una de las ventajas maacutes importantes de esta metodologiacutea essu capacidad para captar patrones no lineales de susceptibilidad

En este contexto recientemente hemos propuesto una nueva aproximacioacuten para laseleccioacuten de variables a partir del uso del Random Forest y las curvas ROC (Calle et al2011)

Una curva ROC es una representacioacuten graacutefica de la proporcioacuten de verdaderos posi-tivos versus la proporcioacuten de falsos positivos a partir de la prediccioacuten que proporcionaun determinado meacutetodo de clasificacioacuten Una de las caracteriacutesticas maacutes importantesde las curvas ROC es que permiten obtener una medida de la capacidad predictiva delmeacutetodo mediante el caacutelculo del aacuterea bajo la curva

La estrategia que presentamos y que hemos implementado en la libreriacutea AUCRFen R se basa en la optimizacioacuten del aacuterea bajo la curva ROC (AUC) del Random ForestPartiendo de un ranking inicial de variables y mediante un proceso de eliminacioacutenseleccionamos el conjunto de variables que proporciona un mayor AUC Se trata de unproceso de seleccioacuten de variables inspirado en el meacutetodo propuesto por Diaz-Uriarte yAndreacutes (2006 libreriacutea varSelRF) La diferencia principal es que el algoritmo varSelRFselecciona el conjunto de variables con menor error de clasificacioacuten La ventaja de usarel AUC en lugar del error de clasificacioacuten como medida de prediccioacuten del RandomForest queda especialmente de manifiesto cuando se analizan conjuntos de datos nobalanceados La libreriacutea AUCRF proporciona ademaacutes para cada variable seleccionadauna medida de la robustez de dicha seleccioacuten

3

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 20: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

3 Comprobacioacuten de las propiedades delPropensity Score y de sus aplicacionesmediante las opciones graacuteficas de R

Lorea Martiacutenez-Indart (Unidad de Epidemiologiacutea Cliacutenica-CAIBER Hospital deCruces)Arantza Urkaregi Etxepare Dpto Matemaacutetica Aplicada Estadiacutestica e IO UPVEHUJose Ignacio Pijoan Zubizarreta (Unidad de Epidemiologiacutea Cliacutenica Hospital de Cru-ces)

COMUNICACIOacuteN (PDF)

El efecto de muchas intervenciones se evaluacutea a partir de disentildeos no aleatorizados enlos que siempre es necesario tener en cuenta la existencia de sesgos de seleccioacuten Entrelos meacutetodos de control estadiacutestico propuestos ha ganado gran popularidad el conjuntode teacutecnicas derivadas del Propensity Score (PS) que es la probabilidad condicionadade recibir un tratamiento en funcioacuten de una serie de factores oacute covariables Para un PSfijado se pretende conseguir que las diferentes caracteriacutesticas individuales esteacuten ho-mogeacuteneamente distribuidas entre tratados y no tratados de forma que se reconstruyaun hipoteacutetico mecanismo aleatorio de asignacioacuten del tratamiento Despueacutes de crear elPS se divide en bloques y se debe comprobar que es un score de balanceo es decir queel PS sigue una distribucioacuten similar en todos los bloques y que las diferentes variablesestaacuten balanceadas para tratados y no tratados en cada uno de los bloques Una de lasprincipales aplicaciones del PS es el matching es decir seleccionar para cada personatratada la persona no tratada maacutes similar Esto exige comprobar que tras el matchingtodas las variables estaacuten balanceadas R tiene diferentes libreriacuteas con comandos parapoder calcular el PS y realizar el matching asiacute como para obtener graacuteficos en los que seilustra de una manera clara y sencilla si se cumple o no el balanceo tanto en el propioPS como en las diferentes variables

4

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 21: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

4 Dos nuevas libreriacuteas para anaacutelisis dela supervivencia dcens y bwsurvival

Carles Serrat Piegrave (Universitat Politegravecnica de Catalunya-BarcelonaTECH)Olga Juliagrave (Departament de Probabilitat Logravegica i Estadiacutestica Universitat de Bar-celona)Jorge Corteacutes (Institut Catalagrave drsquoOncologia)Victoria Moneta y Guadalupe Goacutemez (Departament drsquoEstadiacutestica i InvestigacioacuteOperativa Universitat Politegravecnica de Catalunya ndash BarcelonaTECH)

COMUNICACIOacuteN (PDF)

Presentamos dos nuevos paquetes dcens y bwsurvival para estimar la funcioacuten desupervivencia de forma no parameacutetrica bajo situaciones complejas de censura Las po-sibilidades numeacutericas y graacuteficas de ambas libreriacuteas se ilustraraacuten a partir de ejemplosbiomeacutedicos

La libreriacutea dcens estima la funcioacuten de supervivencia a partir de datos doblemen-te censurados Un esquema de doble censura se presenta cuando ademaacutes de la usualcensura por la derecha se produce censura por la izquierda Si T representa el tiempode supervivencia medido desde un origen conocido su valor exacto soacutelo se observasi el tiempo acontece dentro la ventana [L R] donde L lt R son variables aleatoriaspositivas La muestra de datos observables estaacute formada por los pares (U d) siendoU = minR maxT L y d la variable que indica si T se ha observado exactamente (d = 0)estaacute censurado por la derecha (d = 1) o censurado por la izquierda (d = minus1) La libre-riacutea permite la estimacioacuten simultaacutenea no parameacutetrica de las funciones de supervivenciamarginales ST SL y SR correspondientes a T L y R a partir de los pares (U d) y me-diante un meacutetodo ponderado por el inverso de la probabilidad de censura

La libreriacutea bwsurvival estaacute concebida para aquellas situaciones en las que hay doseventos de intereacutes E1 y E2 que se producen uno a continuacioacuten del otro cuando el ob-jetivo se centra en la estimacioacuten de la funcioacuten de supervivencia del tiempo T2 hasta E2en funcioacuten del tiempo T1 hasta E1 En estos casos el mecanismo de censura actuacutea sobrela suma T1 + T2 por lo que la observacioacuten de T2 estaacute sujeta a censura dependienteEl meacutetodo se basa en la estimacioacuten no parameacutetrica de la funcioacuten de supervivencia deT2 condicionada a T1 en los distintos intervalos de una particioacuten de intereacutes cientiacutefico(1 semana 1 trimestre 1 antildeo 2 antildeos ) introducida por el usuario y tiene en cuen-ta el sesgo de seleccioacuten asiacute como la heterogeneidad debida a la censura dependienteusando para ello un meacutetodo ponderado a partir de las observaciones de T1 La libreriacuteapermite el uso de otros pesos introducidos por el usuario asiacute como la estratificacioacuten delas funciones de supervivencia seguacuten una variable categoacuterica

5

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 22: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

5 FluDetWeb an interactive web-basedsystem for the early detection of theonset of influenza epidemics

David Valentin Conesa Guillen Antonio Loacutepez-Quiacutelez Miguel Aacutengel Martiacutenez-Beneito y Francisco VerdejoUniversitat de Valencia

COMUNICACIOacuteN (PDF)

The early identification of influenza outbreaks has became a priority in public healthpractice A large variety of statistical algorithms for the automated monitoring of in-fluenza surveillance have been proposed but most of them require not only a lot ofcomputational effort but also operation of sometimes not-so-friendly software In thispaper we introduce FluDetWeb an implementation of a prospective influenza sur-veillance methodology based on a client-server architecture with a thin (web-based)client application design Users can introduce and edit their own data consisting of aseries of weekly influenza incidence rates The system returns the probability of beingin an epidemic phase (via email if desired) When the probability is greater than 05it also returns the probability of an increase in the incidence rate during the followingweek The system also provides two complementary graphs This system has beenimplemented using statistical free-software (R and WinBUGS) a web server environ-ment for Java code (Tomcat) and a software module created by us (Rdp) responsi-ble for managing internal tasks the software package MySQL has been used to cons-truct the database management system The implementation is available on-line fromhttpwwwgeeitemaorgmeviepifludetweb

6

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 23: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

6 OptimalCutpoints un paquete en Rpara la seleccioacuten de puntos de corteoacuteptimos en las pruebas diagnoacutesticas

Moacutenica Loacutepez Ratoacuten Unidad de Bioestadiacutestica-Departamento de Estadiacutestica e In-vestigacioacuten Operativa-USCMariacutea Xoseacute Rodriacuteguez Aacutelvarez Unidad de Epidemiologiacutea Cliacutenica y BioestadiacutesticaComplejo Hospitalario Universitario de Santiago de Compostela (CHUS)Carmen Mariacutea Cadarso Suaacuterez Unidad de Bioestadiacutestica Departamento de Esta-diacutestica e Investigacioacuten Operativa Universidad de Santiago de CompostelaFrancisco Gude Sampedro Unidad de Epidemiologiacutea Cliacutenica y Bioestadiacutestica Com-plejo Hospitalario Universitario de Santiago de Compostela (CHUS)

COMUNICACIOacuteN (PDF)

En la praacutectica para la aplicacioacuten rutinaria de los tests diagnoacutesticos continuos esnecesario seleccionar un punto de corte o valor de discriminacioacuten c para definir losresultados positivos y negativos del test T de forma que en general los individuoscon un valor T ge c se clasifican como enfermos mientras que los que tienen un valormenor se clasifican como no enfermos Surge entonces el problema de elegir el ldquomejorrdquopunto de corte c Se han propuesto diversas estrategias para la seleccioacuten de puntos decorte oacuteptimos dependiendo del objetivo que se persiga con tal eleccioacuten

El paquete optimalcutpoints que hemos disentildeado en R permite a los usuarios ele-gir entre un elevado nuacutemero de estrategias comuacutenmente utilizadas en la praacutectica cliacute-nica para la seleccioacuten del punto de corte oacuteptimo El programa incorpora tanto criteriosque tienen en cuenta los costes de las diferentes decisiones del diagnoacutestico como laprevalencia de la enfermedad en estudio o diversos criterios basados en las medidasde Sensibilidad Especificidad los Valores Predictivos o las Razones de VerosimilitudAdemaacutes permite el caacutelculo de los valores oacuteptimos seguacuten los niveles de determinadascovariables (categoacutericas) hecho que resulta de gran intereacutes puesto que en muchas oca-siones la discriminacioacuten de un marcador diagnoacutestico puede ser diferente en funcioacuten deciertas caracteriacutesticas como por ejemplo el sexo o la edad del paciente Los resultadosnumeacutericos proporcionados incluyen el punto de corte oacuteptimo mediante el criterio se-leccionado y las medidas diagnoacutesticas en dicho valor oacuteptimo con sus correspondientesICs Bootstrap al 95

En las salidas graacuteficas del programa se presentan la Curva ROC del test analizadoy la graacutefica del criterio correspondiente en funcioacuten de los valores del test (candidatosal punto de corte oacuteptimo)

7

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 24: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

7 Paquete de R ldquoalteredExpressionrdquoalgoritmo para localizar genes conperfil de expresioacuten alterado por unaenfermedad

Joseacute Manuel Saacutenchez Santos Universidad de SalamancaMariacutea Jesuacutes Rivas Loacutepez Universidad de SalamancaCarlos Prieto Saacutenchez Centro de Investigacioacuten del Caacutencer de SalamancaJesuacutes Loacutepez Fidalgo Universidad de Castilla-La ManchaJavier de Las Rivas Sanz Centro de Investigacioacuten del Caacutencer de Salamanca

COMUNICACIOacuteN (PDF)

Muchas de las herramientas sobre expresioacuten geacutenica buscan genes diferencialmenteexpresados entre 2 grupos de individuos (control paciente) Sin embargo los meca-nismos moleculares de una enfermedad producen frecuentemente des-regulacionesque dan lugar a alteraciones grandes en el nivel de expresioacuten del gen Basados enesta observacioacuten bioloacutegica el algoritmo incluido en el paquete de R ldquoalteredExpres-sionrdquo localiza grupos de genes que presentan una alteracioacuten significativa de la va-riabilidad de sus perfiles de expresioacuten entre controles y pacientes es decir identi-fica genes cuyo perfil de expresioacuten estaacute alterado por el estado patoloacutegico enfermo(httpbioinfowdepusalesAlteredExpression)

8

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 25: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

8 ROCRegression un paquete en Rpara la incorporacioacuten de covariablesen el anaacutelisis ROC

Mariacutea Xoseacute Rodriacuteguez Aacutelvarez (Complexo Hospitalario Universitario de Santiagode Compostela)Ignacio Loacutepez de Ullibarri (Universidade da Coruntildea)Carmen Cardarso Suaacuterez (Universidade de Santiago de Compostela)

COMUNICACIOacuteN (PDF)

La curva de caracteriacutesticas operacionales del receptor (Receiver Operating Charac-teristic - ROC - curve) es la medida habitual para evaluar la capacidad de discrimina-cioacuten de las pruebas diagnoacutesticas con resultado continuo a la hora de distinguir entreindividuos sanos y enfermos En algunas circunstancias la capacidad de discrimina-cioacuten de una prueba puede variar seguacuten caracteriacutesticas de los individuos a los que sele aplica la prueba como la edad o el sexo En este trabajo presentamos un paquetedesarrollado en R denominado ROCRegression que implementa distintos enfoquesde regresioacuten - parameacutetricos y semiparameacutetricos - para incorporar covariables en elanaacutelisis ROC Este paquete permite incorporar en el anaacutelisis un conjunto de covaria-bles continuas yo categoacutericas y sus posibles interacciones A partir de la estimacioacutende la curva ROC condicional se obtienen otras medidas resumen de la precisioacuten deuna prueba diagnoacutestica tales como el aacuterea bajo la curva (AUC) y el iacutendice de Youdengeneralizado (YI) asiacute como los valores de corte basados en el criterio del YI

9

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 26: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

9 Un paquete de R para analizarinteracciones factor por curva

Marta Sestelo Nora M Villanueva Javier Roca PardintildeasUniversidade de Vigo

COMUNICACIOacuteN (PDF)

El anaacutelisis de diversos estudios puede ser solventado aplicando modelos de regre-sioacuten no parameacutetrica En este campo las interacciones factor-por-curva resultan de granintereacutes En este tipo de interacciones el efecto que ejerce una covariable continua enla respuesta variacutea seguacuten los distintos grupos definidos por los niveles de una variablecategoacuterica El paquete que se presenta permite comparar curvas de regresioacuten y susderivadas que pueden variar entre distintos factores Para ello se propone el uso desuavizadores lineales locales tipo kernel implementados en este software para R Estetrabajo describe la capacidad del paquete para estimar dichos modelos (y sus deriva-das) y representar graacuteficamente las distintas curvas estimadas Cabe destacar que laprincipal caracteriacutestica de este paquete estadiacutestico es la de hacer inferencia sobre pun-tos criacuteticos como maacuteximos o puntos de cambio relacionados con las curvas estimadasPara ello se aplican teacutecnicas bootstrap y teacutecnicas binning que aceleran computacional-mente la estimacioacuten y los contrastes El software se ilustra utilizando datos bioloacutegicos

10

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 27: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

10 Una solucioacuten integrada con R para elanaacutelisis de interacciones entre genescon datos de supervivencia en unestudio GWAS

Jesuacutes Herranz Valera (Centro Nacional de Investigaciones Oncoloacutegicas)Antoni Picornell (Centro Nacional de Investigaciones Oncoloacutegicas)Mariacutea L Calle (Universitat de Vic)Nuacuteria Malats (Centro Nacional de Investigaciones Oncoloacutegicas)

COMUNICACIOacuteN (PDF)

El anaacutelisis exhaustivo de todas las interacciones gen-gen en estudios pangenoacutemicos(GWAS) con datos de supervivencia no ha sido todaviacutea abordado porque miles demillones de interacciones deben ser estudiadas con teacutecnicas estadiacutesticas disentildeadas paratratar con tiempos de supervivencia El alto coste computacional de este anaacutelisis lo haceimpracticable

Proponemos una estrategia novedosa y viable para analizar todos los pares de inter-acciones de un estudio pangenoacutemico con datos de supervivencia que incluye 1 milloacutende SNPs La estrategia consta de varios pasos En una primera etapa se hace un cri-baje entre todas las interacciones analizaacutendolas con regresioacuten logiacutestica y se seleccionanaquellas con P-valores lt 1E-4 Este anaacutelisis se realiza con BOOST En la segunda etapalas interacciones seleccionadas en la etapa de cribaje son analizadas con regresioacuten deCox la teacutecnica maacutes extendida para analizar datos de supervivencia

Aplicamos esta estrategia a los datos procedentes del Estudio Espantildeol de Caacutencerde VejigaEPICURO en el que se analizaron 4 sucesos de intereacutes cliacutenico prediccioacutende recurrencia y progresioacuten tumoral en 836 casos de caacutencer de vejiga con tumores no-invasivos y prediccioacuten de progresioacuten y muerte en 235 casos con tumores invasivosSeleccionamos para el anaacutelisis 585000 polimorfismos despueacutes de haber aplicado fil-tros de control de calidad y de haber descartado polimorfismos en desequilibrio deligamiento Se analizaron los 171000 millones de interacciones gen-gen y se identifica-ron varias interacciones con P-valores lt 1E-10 en cada uno de los 4 anaacutelisis propuestos

En esta presentacioacuten mostramos coacutemo organizamos en el entorno R toda la infor-macioacuten referente a este proceso coacutemo gestionamos esa informacioacuten y coacutemo realiza-mos los distintos anaacutelisis estadiacutesticos requeridos R es una herramienta adecuada paratratar problemas de esta complejidad En primer lugar R permite realizar el anaacutelisisestadiacutestico de los datos de supervivencia (regresioacuten de Cox curvas KM ) y salvar

11

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 28: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

10 UNA SOLUCIOacuteN INTEGRADA CON R PARA EL ANAacuteLISIS DE INTERACCIONES ENTRE GENESCON DATOS DE SUPERVIVENCIA EN UN ESTUDIO GWAS

los resultados obtenidos lo cual nos permitioacute estructurar adecuadamente el procesoen varios pasos Ademaacutes R admite el manejo de miles de variables implicadas en elanaacutelisis y es muy flexible para crear scripts que pueden ser utilizados para analizarsimultaacuteneamente los 4 sucesos cliacutenicos de intereacutes

12

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 29: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Parte II

Ambiental Espacial Miscelaacutenea

13

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 30: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

11 Algunas aplicaciones de R enecologiacutea de la docencia elemental a lainvestigacioacuten avanzada

Marcelino de la Cruz RotUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

En esta comunicacioacuten presento algunas de las aplicaciones desarrolladas recien-temente tanto para la docencia como para la investigacioacuten en ecologiacutea Expondreacute al-gunas de las caracteriacutesticas de los paquetes Rramas (modelizacioacuten de la dinaacutemica depoblaciones estructradas) ecespa y dixon (anaacutelisis de patrones espaciales de puntos)mpmcorrelogram (correlogramas multivariados parciales de Mantel) y tgram (funcio-nes para calcular y representar traqueidogramas) asiacute como de otros paquetes en fasede desarrollo

14

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 31: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

12 Comparativa y anaacutelisis devariabilidad espacial entre medidasde radiacioacuten solar terrestre (SIAR) ysatelital (CM-SAF)

Fernando Antontildeanzas Torres (Escuela de Organizacioacuten Industrial)Federico Cantildeizares Jover (Escuela de Organizacioacuten Industrial)Rafael Morales Cabrera (Escuela de Organizacioacuten Industrial)Manuel Ojeda Fernaacutendez (Escuela de Organizacioacuten Industrial)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)

COMUNICACIOacuteN (PDF)

El objetivo de este trabajo es el anaacutelisis comparativo de dos fuentes de irradiacioacutensolar para el territorio peninsular espantildeol siguiendo la iniciativa de estudios previospara otras regiones [2] La primera de estas fuentes corresponde a medidas de irra-diacioacuten global diaria en el plano horizontal realizadas por los piranoacutemetros de la redde estaciones meteoroloacutegicas del Sistema de Informacioacuten Agroclimaacutetica del Regadiacuteo(SIAR) perteneciente al Ministerio de Medio Ambiente Rural y Marino [4] Esta redestaacute compuesta por maacutes de 360 estaciones ubicadas en once Comunidades Autoacutenomasde la Espantildea peninsular La otra fuente de comparacioacuten es un conjunto de imaacutegenesde sateacutelite proporcionadas por la iniciativa denominada ldquoThe Satellite Application Fa-cility on Climate Monitoringrdquo (CM-SAF) [8]

El anaacutelisis llevado a cabo en R emplea diferentes paquetes solaR [7] para el caacutelcu-lo de geometriacutea solar irradiacioacuten global en el plano horizontal y efectiva en el planoinclinado raster[1] y rasterVis[3] para la lectura manipulacioacuten y visualizacioacuten deimaacutegenes raster gstat [5] y sp[6] para los meacutetodos de interpolacioacuten geoestadiacutestica Elprimer paso es realizar un mapa del promedio anual de la irradiacioacuten global diaria enel plano horizontal de los datos de CMSAF Seraacute este mapa el que se compare con lasestaciones meteoroloacutegicas (sin interpolar) y con el mapa obtenido de la interpolacioacutende las estaciones terrestres distribuidas de manera no uniforme Se aplican teacutecnicasno estadiacutesticas como el Inverse Distance Weighted (IDW) y el ajuste por superficie queofrecen aproximaciones groseras Se ensayan tambieacuten teacutecnicas de anaacutelisis estadiacutesticocomo el Ordinary Kriging solucioacuten poco fiable en aquellos emplazamientos con pocadensidad de estaciones Finalmente se opta por el meacutetodo de kriging with external driftempleando la irradiacioacuten anual seguacuten CMSAF como variable externa

15

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 32: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

12 COMPARATIVA Y ANAacuteLISIS DE VARIABILIDAD ESPACIAL ENTRE MEDIDAS DE RADIACIOacuteNSOLAR TERRESTRE (SIAR) Y SATELITAL (CM-SAF)

Este procedimiento se aplica tanto para la estimacioacuten de irradiacioacuten global en elplano horizontal como para la irradiacioacuten efectiva en un sistema fotovoltaico fijo enun sistema con un eje de seguimiento y en un sistema con doble eje de seguimiento

121 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] JOURNEacuteE MICHEL y BERTRAND CEacuteDRIC laquoImproving the spatio-temporal distri-bution of surface solar radiation data by merging ground and satellite measure-mentsraquo Remote Sensing of Environment 2010 114(11) pp 2692 ndash 2704 ISSN 0034-4257 doi DOI101016jrse201006010

[3] LAMIGUEIRO OSCAR PERPINtildeAacuteN y HIJMANS ROBERT rasterVis Visualization met-hods for the raster package 2011 R package version 010-5httprastervisr-forger-projectorg

[4] MINISTERIO DE MEDIO AMBIENTE RURAL Y MARINO laquoSistema de InformacioacutenAgroclimaacutetica del Regadiacuteoraquo httpwwwmarmessiarInformacionasp 2011

[5] PEBESMA EDZER J laquoMultivariable geostatistics in S the gstat packageraquo Compu-ters and Geosciences 2004 30 pp 683ndash691

[6] PEBESMA EDZER J y BIVAND ROGER S laquoClasses and methods for spatial data inRraquo R News 2005 5(2) pp 9ndash13httpCRANR-projectorgdocRnews

[7] PERPINAN OSCAR solaR Calculation of Solar Radiation and PV Systems 2011 Rpackage version 024

[8] THE SATELLITE APPLICATION FACILITY ON CLIMATE MONITORING laquoCMSAFraquohttpwwwcmsafeu 2011

16

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 33: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

13 Datos geograacuteficos de tipo raster en R

Jacob van Etten (IE Universidad)Oscar Perpintildeaacuten Lamigueiro (Universidad Politeacutecnica de Madrid)Robert J Hijmans (University of California)

COMUNICACIOacuteN (PDF)

El paquete raster ([1]) proporciona un gran nuacutemero de funciones para procesardatos geograacuteficos de tipo raster El disentildeo de este paquete basado en clases S4 hace elanaacutelisis de estos datos maacutes amigable al usuario Tambieacuten ha ocasionado el desarrollode paquetes maacutes especiacuteficos para trabajar con datos raster en R

rasterVis [2] proporciona un conjunto de meacutetodos de visualizacioacuten e interaccioacutengraacutefica desde graacuteficos de nivel y contorno histogramas o matrices de dispersioacuten hastagraacuteficos apropiados para datos espacio-temporales

gdistance [3] proporciona nuevas clases para caacutelculos basados en rutas y movi-mientos a traveacutes de espacios discretizados Implementa meacutetodos como la distancia decoste e introduce meacutetodos recientemente desarrollados basados en caminos aleatorios

En la charla se explicaraacute el disentildeo del paquete raster y se demostraraacute las posibili-dades que ofrecen estos paquetes con ejemplos concretos

131 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN OSCAR y HIJMANS ROBERT rasterVis Visualization methods for the rasterpackage 2011 R package version 010-5httprastervisr-forger-projectorg

[3] VAN ETTEN JACOB gdistance distances and routes on geographical grids 2011 Rpackage version 11-1httpCRANR-projectorgpackage=gdistance

17

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 34: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

14 Deteccioacuten de patrones espaciales debiodiversidad de aacuterboles y mamiacuteferosen la Peniacutensula Ibeacuterica

Jennifer Morales Barbero Rafael Francisco Garciacutea Vaacutezquez y Dolores Ferrer Cas-taacutenAacuterea de Ecologiacutea Universidad de Salamanca

COMUNICACIOacuteN (PDF)

El estudio de los gradientes de diversidad bioloacutegica ocupa un lugar central en eco-logiacutea y biogeografiacutea La comprensioacuten de los patrones de variacioacuten y la identificacioacutende aacutereas que albergan una elevada biodiversidad son ademaacutes fundamentales para po-der adoptar medidas de manejo y conservacioacuten adecuadas En este trabajo se recogenprocedimientos de anaacutelisis y funciones de R utilizadas para describir las variacionesespaciales de la biodiversidad concretamente de la riqueza taxonoacutemica (especies y fa-milias) de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica y evaluar la importancia relativade distintos factores ambientales que podriacutean determinar dichas variaciones

La Peniacutensula Ibeacuterica se dividioacute en 240 celdas de 50 km x 50 km proyectadas deacuerdo con el Sistema Militar de Referencia por Cuadriacuteculas (MGRS) Para cada unade las celdas se estimoacute la riqueza total de especies de plantas lentildeosas nativas que pue-den alcanzar una altura de al menos 7 m asiacute como la riqueza total de especies de ma-miacuteferos nativos Dichas estimaciones se realizaron partir de datos georreferenciadosde presencia de las especies y tras la aglutinacioacuten de eacutestas en familias se determinaronlos correspondientes valores de riqueza del nivel taxonoacutemico superior Se utilizaronmodelos aditivos generalizados (GAMs) y modelos lineales generalizados (GLMs) pa-ra analizar las variaciones espaciales de la riqueza de los distintos grupos taxonoacutemicosen funcioacuten de factores macroclimaacuteticos topograacuteficos y litoloacutegicos las posibles relacio-nes existentes entre la riqueza de aacuterboles y de mamiacuteferos fueron igualmente analiza-das Asimismo se aplicoacute una particioacuten de varianzas (regresiones parciales) para sabercuaacutenta de la variacioacuten espacial de la riqueza de cada grupo era explicada por las varia-bles ambientales Todos los anaacutelisis estadiacutesticos se realizaron con R

En el caso de los aacuterboles los resultados obtenidos a los dos niveles taxonoacutemicos (es-pecies y familias) fueron muy similares entre siacute y la variable ambiental que explicabael mayor porcentaje de variacioacuten de los datos fue en ambos casos el rango altitudinal sibien todas las variables resultaron ser estadiacutesticamente significativas al analizarlas porseparado En el caso de los mamiacuteferos los resultados fueron maacutes dispares incluso seobtuvieron modelos diferentes dependiendo de los procesos de elaboracioacuten llevados acabo (seleccioacuten paso a paso hacia delante eliminacioacuten paso a paso hacia atraacutes) si bien

18

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 35: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

todos ellos incorporaron la riqueza de aacuterboles como predictor de la riqueza de mamiacutefe-ros (dicho predictor explica maacutes variacioacuten de los datos que las variables topograacuteficasclimaacuteticas o litoloacutegicas analizadas) En general la proporcioacuten de varianza explicadafue mayor para los aacuterboles que para los mamiacuteferos los porcentajes correspondientesa la estructura espacial de los datos que queda sin explicar por los modelos obtenidosson al mismo tiempo menores en el caso de la riqueza de aacuterboles Todo ello sugiere quelos valores de riqueza de especies podriacutean ser sustituidos por los de taxones superiores(familias) a la hora de elaborar medidas de conservacioacuten de la biodiversidad arboacutereapero no de la riqueza de mamiacuteferos al menos en la Peniacutensula Ibeacuterica

19

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 36: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

15 solaR geometriacutea radiacioacuten y energiacuteasolar en R

Oscar Perpintildeaacuten LamigueiroUniversidad Politeacutecnica de Madrid

COMUNICACIOacuteN (PDF)

El paquete solaR [4] incluye un repertorio de funciones clases y meacutetodos S4 des-tinados al caacutelculo de la geometriacutea solar la irradiancia e irradiacioacuten solar en el planohorizontal e inclinado (con diferentes teacutecnicas de seguimiento) y la productividad desistemas fotovoltaicos de conexioacuten a red y de bombeo de agua [3] Permite realizar elitinerario completo tanto desde fuentes de irradiacioacuten diaria como intradiaria median-te diferentes correlaciones entre radiacioacuten global difusa y directa o empleando valoresde las tres componentes si estuviesen disponibles Ademaacutes incluye varios meacutetodos devisualizacioacuten basados en los paquetes lattice [6] y latticeExtra [7] principalmentedestinados a la representacioacuten de las series temporales [9] de irradiacioacutenirradiancia opotencia de los sistemas

Aunque el paquete estaacute disentildeado para la generacioacuten de series temporales ligadas auna ubicacioacuten determinada definida por su latitud y condiciones de irradiacioacuten (vea-se por ejemplo su aplicacioacuten combinada con wavelets en [5]) es faacutecil emplear solaR encombinacioacuten con otros paquetes orientados al caacutelculo espacial (por ejemplo junto conraster [1] en [8] o con meacutetodos de geoestadiacutestica en [2])

151 Bibliografiacutea[1] HIJMANS ROBERT J y VAN ETTEN JACOB raster Geographic analysis and modeling

with raster data 2011 R package version 18-39httpCRANR-projectorgpackage=raster

[2] PERPINtildeAacuteN O laquoCMSAF SIAR and Rraquo 2011 Incluido en un Proyecto de Fin deMaacutester de la EOIhttpsr-forger-projectorgscmviewvcphpdraftskrigingRview=

markupamproot=solar

[3] PERPINtildeAacuteN O Energiacutea Solar Fotovoltaica 2011httpprocomunwordpresscomlibroesf

[4] PERPINtildeAacuteN O solaR Calculation of Solar Radiation and PV Systems 2011 R packageversion 024

20

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 37: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

151 Bibliografiacutea

[5] PERPINtildeAacuteN O y LORENZO E laquoAnalysis and synthesis of the variability of irra-diance and PV power time series with the wavelet transformraquo Solar Energy 201185(1) pp 188 ndash 197 ISSN 0038-092X doi DOI101016jsolener201008013

[6] SARKAR D Lattice Multivariate Data Visualization with R Springer New York2008 ISBN 978-0-387-75968-5httplmdvrr-forger-projectorg

[7] SARKAR D y ANDREWS F latticeExtra Extra Graphical Utilities Based on Lattice2010 R package version 06-12r148httpR-ForgeR-projectorgprojectslatticeextra

[8] UMMEL K SEXPOT A spatiotemporal linear programming model to simulate globaldeployment of renewable power technologies Tesina o Proyecto Central European Uni-versity Budapest 2011httpdldropboxcomu14314000ThesisMediaKevin_Ummel_CEU_2011pdf

[9] ZEILEIS A y GROTHENDIECK G laquozoo S3 Infrastructure for Regular and Irregu-lar Time Seriesraquo Journal of Statistical Software 2005 14(6) pp 1ndash27httpwwwjstatsoftorgv14i06

21

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 38: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

16 Implementacioacuten y Disentildeo deHerramientas para el AnaacutelisisGeoestadiacutestico en R y ComparacioacutenGeoestadiacutestica entre Arcgis y R

Carlos Eduardo Melo Martiacutenez (Facultad de Ciencias Universidad Distrital Fran-cisco Joseacute de Caldas)Oscar Orlando Melo Martiacutenez (Facultad de Ingenieriacutea Universidad Nacional deColombia)Sandra Esperanza Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacionalde Colombia)

COMUNICACIOacuteN (PDF)

Esta investigacioacuten se centra en el disentildeo de programas en R para desarrollar proce-dimientos geoestadiacutesticos Ademaacutes se proponen algunos programas sobre las teoriacuteasexistentes y un nuevo meacutetodo alternativo para anidar modelos de semivarianza Ade-maacutes se hace una comparacioacuten entre los programas geoestadiacutesticos R y ArcGIS En esteartiacuteculo se presenta una breve introduccioacuten a la estadiacutestica espacial se definen las prin-cipales aacutereas (geoestadiacutestica lattices y patrones espaciales) y una breve presentacioacutende ArcGIS y los programas de R en sus componentes de geoestadiacutestica Por otra par-te los aspectos estadiacutesticos y matemaacuteticos de la geoestadiacutestica se resumen haciendoeacutenfasis en el variograma en ambos meacutetodos de interpolacioacuten tanto probabiliacutesticos ldquokri-gingrdquo como deterministicos y en la bondad de ajuste de los meacutetodos de interpolacioacuten(validacioacuten cruzada)

Proponemos una serie de funciones disentildeadas en el entorno R que permiten rea-lizar un anaacutelisis geoestadiacutestico maacutes completo con la ayuda de paquetes previamenteya disentildeados en R (geoR gstat sgeostat y akima entre otros) en la componente espa-cial Estos aportes son una funcioacuten para la construccioacuten del variograma de la mediarecortada una funcioacuten para anidar funciones de semivarianza a partir de funcionesdesplazadas con los modelos teoacutericos de semivarianza (esfeacuterico exponencial y gaus-siano) una funcioacuten para la construccioacuten del pocketplot (uacutetil para el anaacutelisis de estacio-nariedad local) una funcioacuten para la interpolacioacuten spline a partir de las funciones debase radial (multicuadraacutetica y multicuadraacutetica inversa) y una funcioacuten para la valida-cioacuten cruzada que permite validar los meacutetodos de interpolacioacuten a partir de los erroresAdemaacutes se realiza una comparacioacuten en el funcionamiento de los programas ArcGIS yR en sus moacutedulos geoestadiacutesticos analizando sus bondades limitaciones y en generalel comportamiento para este tipo de anaacutelisis estadiacutestico

22

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 39: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

17 Psicometriacutea avanzada con R a partirde datos de personalidad enldquomyPersonalityrdquo

Paulo Villegas (Telefoacutenica Investigacioacuten y Desarrollo)Pedro Concejero (Telefoacutenica Investigacioacuten y Desarrollo)Miguel Angel Castellanos (Universidad Complutense de Madrid)

COMUNICACIOacuteN (PDF)

Psychometrics is the discipline devoted to psychological measurement This is ahighly specialized field and somewhat confined within the frontiers of psychologicaltesting but its most modern models have many applications These are called latenttrait models or also known (within those frontiers) as ldquoItem Response Theoryrdquo orIRT (httpenwikipediaorgwikiItem_response_theory) A main difficulty forapplying these models has been until very recently the limited availability of softwareto compute them usually obscure commercial solutions (we mean only known to veryspecific academic and research communities) with lots of inconveniences to integratewith usual statistical software

The R statistical software framework has promoted a small revolution within thisfield allowing many researchers around the world to contribute libraries that estimatea plethora of these models with an efficiency not known till now Our purpose withthis paper is to present the application of advanced IRT models as implemented byR packages (httpcranr-projectorgwebviewsPsychometricshtml) to a po-pular Facebook application devoted to personality measurement called myPersona-lity (httpwwwfacebookcomappsapplicationphpid=2490151219) A dataset ofnearly one million user-filled complete tests (httpwwwmypersonalityorgwikidokuphp) is used to compute the models within R and analyze their results Applica-tions of these models for subjective measurement problems like preference modelingare also outlined

23

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 40: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Parte III

Anaacutelisis de Datos Empresa

24

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 41: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

18 Anaacutelisis de muestras complejas con RLa Encuesta de Calidad de Vida en elTrabajo

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Una de las posibilidades que presenta R en el anaacutelisis de muestras de disentildeo com-plejo es el paquete survey Mediante esta herramienta se posibilita la inclusioacuten del tipode ponderacioacuten adecuado (sampling weights precision weights or frequency weights)unidades primarias de muestreo estratosefectos de disentildeo y demaacutes caracteriacutesticas in-triacutensecas a cualquier tipo de muestreo que permitan la realizacioacuten de un anaacutelisis esta-diacutestico adecuado posibilitando la correcta extrapolacioacuten de resultados de una muestraparticular a la poblacioacuten Este paquete estadiacutestico permite el anaacutelisis de datos obteni-dos mediante muestreo aleatorio simple o estratificado asiacute como por conglomeradosincluyendo disentildeos multietaacutepicos o de una soacutela etapa En cuanto a teacutecnicas estadiacutes-ticas de caraacutecter avanzado dispone de moacutedulos especiacuteficos para regresiones linealesasiacute como logiacutesticas en el supuesto de datos categoacutericos Este trabajo describe la utiliza-cioacuten del paquete mencionado aplicado a la Encuesta de Calidad de Vida en el Trabajorealizada anualmente por el Ministerio de Trabajo e Inmigracioacuten

25

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 42: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

19 Inferencia en anaacutelisis de datoslongitudinales a traveacutes del modelobasado en distancias utilizando R

Sandra E Melo Martiacutenez (Facultad de Agronomiacutea Universidad Nacional de Co-lombia)Oscar O Melo Martiacutenez (Facultad de Ciencias Universidad Nacional de Colom-bia)Carles M Cuadras (Facultad de Biologiacutea Universidad de Barcelona)

COMUNICACIOacuteN (PDF)

Se presenta una metodologiacutea para analizar datos longitudinales a traveacutes de distan-cias en las variables explicativas la cual es utilizada para ajustar variables respuestascontinuacuteas Tambieacutense utiliza miacutenimos cuadrados generalizados para estimar los pa-raacutemetros del modelo y se indica coacutemo realizar pruebas de hipoacutetesis e inferencia enmuestras grandes Se aplica esta nueva aproximacioacuten al estudio del efecto de geacutenero yexposicioacuten sobre la variable desviacioacuten del comportamiento con respecto a toleranciaen un grupo de nintildeos los cuales son estudiados en un periacuteodo de cinco antildeos

Ademaacutes se llevan a cabo simulaciones en R donde se compara el meacutetodo basadoen distancias (DB) propuesto en aproximacioacuten multivariante con respecto al MANOVAclaacutesico basados en los criterios de informacioacuten AIC y BIC mediante las estructuras deautocorrelacioacuten AR(1) y compuesta simeacutetrica Se encuentran pequentildeas ganancias en elajuste del modelo propuesto con respecto a la metodologiacutea claacutesica particularmente enmuestras pequentildeas y resultados similares en ambos meacutetodos con muestras grandes

Tanto en la aplicacioacuten como en las simulaciones se utiliza la funcioacuten miacutenimos cua-drados generalizados (gls) de R para el ajuste de los modelos junto con algunas adap-taciones que se hacen para utilizar distancias bajo ciertas estructuras de autocorrela-cioacuten

26

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 43: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

20 Modelizacioacuten con R de laheterocedasticidad en modelos deregresioacuten ordinal

Joseacute Luis Cantildeadas Reche e Irene Palacios BrihuegaIESA-CSIC

COMUNICACIOacuteN (PDF)

En el anaacutelisis de encuestas es comuacuten tener variables categoacutericas de respuesta ordi-nales Los modelos logit generalizados son los maacutes utilizados para analizar este tipode variables Dentro de estos modelos los de interpretacioacuten maacutes sencilla son los mode-los de ventajas proporcionales [Agresti] En este trabajo se analizan mediante este tipode modelos variables ordinales relacionadas con la actitud de los ciudadanos haciadiversos aspectos de la democracia Encuesta del CIS

En el anaacutelisis de estas actitudes se tiene la sospecha de que el grado de informacioacutenpoliacutetica puede influir en las respuestas a esas variables de forma que la variabilidad enlas respuestas sea distinta seguacuten el grado de informacioacuten poliacuteticaPara comprobar estahipoacutetesis se ajustoacute en primer lugar un modelo de odds proporcionales para cada unade las variables analizadas mediante la funcioacuten polr() y se utilizoacute un procedimiento deseleccioacuten por pasos basado en el criterio de informacioacuten de Akaike Una vez compro-badas las hipoacutetesis del modelo como la hipoacutetesis de odds proporcionales y la bondaddel ajuste ( ) se procedioacute a ajustar mediante el paquete ordinal el mismo modelopero incluyendo la variable de informacioacuten poliacutetica para modelar la posible heteroce-dasticidad Finalmente se contrastoacute la hipoacutetesis de la existencia de heterocedasticidadmediante un contraste de razoacuten de verosimilitudes entre ambos modelos

La formulacioacuten de este tipo de modelos es la siguiente Modelo de odds proporcio-nales convencional

logit [P(Y le j|X1 = x1 Xk = xk)] = ln P(Ylej|x)1minusP(Ylej|x) = αj minus β

primeX

Modelo de odds proporcionales con modelizacioacuten de la dispersioacuten a traveacutes de unacovariable Z

logit [P(Y le j|X1 = x1 Xk = xk Z = z)] = ln P(Ylej|x)1minusP(Ylej|x) =

αjminusβtXexp(γtZ)

27

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 44: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

21 Modelizacioacuten y Prediccioacuten con DatosFuncionales en R

M Carmen Aguilera Morillo AnaM Aguilera del Pino Manuel Escabias Ma-chuca y MarianoJ Valderrama BonnetUniversidad de Granada

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos han proliferado los trabajos de investigacioacuten en los que se ge-neralizan las teacutecnicas multivariantes al caso de datos funcionales dando lugar a unaparte de la estadiacutestica conocida como Anaacutelisis de Datos Funcionales (ADF) Las obser-vaciones muestrales de una variable funcional son funciones que en la mayoriacutea de loscasos proceden de la observacioacuten temporal de una variable estadiacutestica (realizacionesde un proceso estocaacutestico) Los datos funcionales aparecen en campos muy diversosde aplicacioacuten de la estadiacutestica como la economiacutea ciencias de la salud y medioambien-te entre otros

iquestPor queacute trabajamos con R Uno de los principales investigadores en ADF JORamsay desarrolloacute una completa libreriacutea en R (fda) la cual contiene gran parte de lasteacutecnicas estadiacutesticas desarrolladas hasta ahora en ADF En la actualidad sirve de refe-rencia para investigadores de todo el mundo Recientemente investigadores de la Uni-versidad de Santiago de Compostela han desarrollado una libreriacutea sobre ADF (fdausc)que aporta novedades sobre la anteriormente mencionada En particular el grupo deinvestigacioacuten Modelizacioacuten y Prediccioacuten con Datos Funcionalesde la Universidad deGranada desarrolla su labor investigadora haciendo uso de R Rutinas propias adapta-das a las necesidades de los datos a analizar se estaacuten llevando a cabo actualmente enR (aproximacioacuten de datos funcionales anaacutelisis en componentes principales funcionalregresioacuten logiacutestica funcional todo ello adaptado para el caso de datos de naturalezasuave que hayan sido observados con error) En definitiva el objetivo de este trabajoes mostrar a la comunidad de usuarios de R un resumen de los principales trabajosdesarrollados por el grupo en ADF haciendo uso del software libre R

28

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 45: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

22 Multibiplotgui un paquete en R parael tratamiento de datos de conjuntosmuacuteltiples

Ana Beleacuten Nieto Librero (Centro de Investigacioacuten del Caacutencer - Universidad de Sa-lamanca)Mariacutea del Carmen Patino (Departamento de Estadiacutestica Universidad de Salaman-ca)Mariacutea Purificacioacuten Galindo (Departamento de Estadiacutestica Universidad de Sala-manca)Purificacioacuten Vicente (Departamento de Estadiacutestica Universidad de Salamanca)Nora Baccalaacute (Centro Regional Universitario Bariloche Universidad Nacional delComahue Argentina)Aacutengel Maiacutello (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Pablo Sousa (Servicio de Neurocirugiacutea Hospital Universitario de Salamanca)Ineacutes Crespo (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Celeste Lopes (Centro de Neurociencias y Biologiacutea Molecular Universidad de Coim-bra Portugal Facultad de Farmacia Universidad de Coimbra Portugal)Alberto Orfao (Departamento de Medicina y Centro de Investigacioacuten del CaacutencerUniversidad de Salamanca)Mariacutea Dolores Tabernero (Departamento de Medicina y Centro de Investigacioacutendel Caacutencer Universidad de Salamanca)

COMUNICACIOacuteN (PDF)

En este trabajo se presenta el paquete multibiplotGUI implementado en el lenguajeR como una interfaz graacutefica de usuario (GUI) tool comand languagetool kit (TclTk)del anaacutelisis multibiplot Esta teacutecnica estudia las interrelaciones entre individuos y va-riables cuando son medidas en distintas ocasiones o en diferentes situaciones experi-mentales Utiliza los meacutetodos BIPLOT que nos permiten representar los individuos ylos distintos grupos de variables (o las variables y los distintos grupos de individuos)en el mismo espacio y obtener un espacio de comparacioacuten comuacuten para todos los gru-pos donde es posible calcular medidas de la calidad de representacioacuten para cada unode los elementos representados Este paquete permite calcular coordenadas para indi-viduos y variables contribuciones calidades de representacioacuten y bondades de ajusteasiacute como graacuteficos en dos y tres dimensiones con la representacioacuten conjunta de dichascoordenadas y la posibilidad de cambiar las caracteriacutesticas visuales del graacutefico para

29

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 46: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

22 MULTIBIPLOTGUI UN PAQUETE EN R PARA EL TRATAMIENTO DE DATOS DE CONJUNTOSMUacuteLTIPLES

facilitar su interpretacioacuten Como ejemplo de utilizacioacuten del paquete se ha realizado unanaacutelisis multibiplot de datos procedentes de SNP-arrays de 61 pacientes diagnostica-dos con glioblastomas multiformes y 57 meningiomas cuyas muestras fueron recogidasen el Hospital Universitario de Coimbra (Portugal) y en el Hospital Universitario deSalamanca (Espantildea) respectivamente Se realizaron varios anaacutelisis utilizando el arrayde Affymetrix Genome-Wide Human SNP 60 en un subgrupo de 26 glioblastomasmultiformes y 7 meningiomas y 35 glioblastomas y 50 meningiomas fueron analizadoscon el array de Affymetrix GeneChip Human Mapping 500K Del total de sondas ana-lizadas para ambos arrays un subconjunto de 73 genes localizados en el cromosoma7 presentes en ambos arrays mostroacute que las alteraciones geneacuteticas permiten subclasifi-car ambos conjuntos de tumores del sistema nervioso siendo las representaciones en 3dimensiones las que maacutes claramente visualizan las diferencias entre tumores

30

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 47: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

23 MMLM Una funcioacuten para construirmodelos predictivos con mayorcapacidad de discriminacioacuten

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)

COMUNICACIOacuteN (PDF)

La combinacioacuten de muacuteltiples biomarcadores para mejorar la precisioacuten diagnoacutesti-ca es un tema importante dentro del campo de la medicina Coacutemo proporcionar unasolucioacuten oacuteptima para este problema es un tema ampliamente analizado que auacuten notiene una respuesta global En diferentes estudios se han propuesto modelos linealesque maximizan el aacuterea bajo la curva ROC sin embargo ninguno de ellos puede seraplicado en todos los escenarios posibles Su y Liu [1] obtuvieron una solucioacuten oacutepti-ma bajo hipoacutetesis de normalidad multivariante criterio que no es faacutecil de verificar enlos datos meacutedicos Por otro lado existen meacutetodos no parameacutetricos [2] que no han te-nido una amplia difusioacuten porque pueden ser computacionalmente intensivos cuandoel nuacutemero de biomarcadores es grande En este trabajo se presenta una nueva funcioacutenMMLM para la construccioacuten de modelos predictivos basada en el meacutetodo min-max[3] que combina biomarcadores de tipo continuo en orden a pronosticar un estado deuna enfermedad Esta funcioacuten esta desarrollada mediante un meacutetodo no parameacutetrico yutiliza para su ejecucioacuten otra funcioacuten SLM que combina biomarcadores mediante unalgoritmo paso a paso [4] con criterio de optimalidad el aacuterea bajo la curva ROC (AUC)El empleo de esta funcioacuten se ilustra mediante simulaciones y con la aplicacioacuten praacutecticaen un problema de estadificacioacuten del caacutencer de proacutestata

31

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 48: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

24 El paquete de R isocir InferenciaIsotoacutenica con Datos Circularesresolviendo problemas de la BiologiacuteaMolecular

Sandra Barragaacuten Andreacutes (Universidad de Valladolid)Cristina Rueda Sabater (Universidad de Valladolid)Miguel A Fernaacutendez Temprano (Universidad de Valladolid)Shyamal D Peddada (National Institute of Environmental Health Sciences USA)

COMUNICACIOacuteN (PDF)

El paquete de R isocir ([1]) ofrece un conjunto de funciones para hacer inferenciaisotoacutenica con datos circulares La estimacioacuten de paraacutemetros circulares ordenados en-tre siacute es una cuestioacuten de gran intereacutes para muchos investigadores Los meacutetodos usua-les que han sido desarrollados para el espacio Eucliacutedeo no pueden aplicarse directa-mente en los datos circulares En concreto ante la presencia de restricciones entre losparaacutemetros estimadores y test de hipoacutetesis tienen que ser definidos apropiadamentepara tratar las peculiaridades de los datos circulares Con una motivacioacuten inicial enla resolucioacuten de problemas de biologiacutea molecular [3] introdujeron la nocioacuten de ordenisotroacutepico y desarrollaron una metodologiacutea para la estimacioacuten de paraacutemetros circu-lares bajo restricciones Dado el reciente intereacutes entre los bioacutelogos por identificar losgenes del ciclo celular que se conservan entre diferentes especies [2] desarrollaron unametodologiacutea para tratar con problemas de contraste isotroacutepico En el paquete de R iso-cir se encuentra la implementacioacuten de todos estos meacutetodos para poder ser usados encualquier contexto donde aparezcan datos circulares con restricciones de orden

241 Bibliografiacutea[1] BARRAGAN SANDRA isocir Isotonic Inference for Circular data 2011 R package

version 10httpCRANR-projectorgpackage=isocir

[2] FERNANDEZ MA RUEDA C y PEDDADA SD laquoIdentification of tightly regu-lated temporally conserved cell-cycle genes in Budding Yeast Fission Yeast andHumansraquo Submitted 2011

32

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 49: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

241 Bibliografiacutea

[3] RUEDA C FERNANDEZ MA y PEDDADA S laquoEstimation of Parameters Subjectto Order Restrictions on a Circle with Application to Estimation of Phase Angles ofCell-cycle Genesraquo Journal of the American Statistical Association 2009 104(485) pp338ndash347

33

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 50: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Parte IV

Web Informes Calidad

34

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 51: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

25 Brew o coacutemo mezclar R y texto paragenerar informes repetitivos

Xavier Guardiola MartiacutenezSimpple - Xarxa Santa Tecla

COMUNICACIOacuteN (PDF)

La idea de la charla es introducir el paquete Brew para generar informes mediantela mezcla de coacutedigo R y ficheros de texto (Latex html etc) Se explicaraacute nuestra expe-riencia real en el aacutembito de trabajo diario (gestioacuten de informacioacuten sanitaria) Tambieacutense compararaacute con otros paquetes similares (Sweave) y como Brew puede integrarsepara servir informes web dinaacutemicos mediante el servidor Rapache

35

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 52: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

26 Elaboracioacuten personalizada deinformes sobre la Prueba de Acceso ala Universidad

Patricia Diacuteaz Diacuteaz Tania Iglesias Cabo y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

Mediante el paquete Sweave de R en la Unidad de Consultoriacutea Estadiacutestica de laUniversidad de Oviedo se realizoacute un informe automizado referente a las Pruebas deAcceso a la Universidad llevadas a cabo en el Principado de Asturias durante el antildeo2010 En el presente trabajo se presenta parte del anaacutelisis estadiacutestico realizado tanto enla convocatoria de junio como en la de septiembre incluyendo los resultados obteni-dos tanto en la fase general de la prueba como en la especiacutefica Se efectuoacute un anaacutelisisdesagregado por geacutenero centro asignatura y corrector de la prueba Se analizaron lasvariaciones obtenidas en la comparacioacuten de las calificaciones del alumnado durante elBachillerato con las conseguidas en las pruebas de acceso a la Universidad tanto paralos alumnos que optaron por la fase general como por la especiacutefica Se detectaron tam-bieacuten los centros y asignaturas con diferencias estadiacutesticamente significativas en cuandoa las calificaciones del Bachiller y las correspondientes a las pruebas de acceso a la uni-versidad Aprovechando la reproducibilidad de la programacioacuten se generaron en totalmaacutes de 110 informes individualizados para cada centro y asignatura

36

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 53: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

27 Informes automatizados conEstadiacutestica univariante y bivariante

Tania Iglesias Cabo Patricia Diacuteaz Diacuteaz y Alexandra Gonzaacutelez GoacutemezUnidad de Consultoriacutea Estadiacutestica Universidad de Oviedo

COMUNICACIOacuteN (PDF)

En una etapa preliminar de cualquier anaacutelisis estadiacutestico es recomendable comen-zar realizando un anaacutelisis descriptivo o exploratorio de los datos que nos permita des-cribir el comportamiento de una variable de forma individual permitiendo visualizarasiacute por ejemplo la distribucioacuten especiacutefica de cada variable de estudio o la identifica-cioacuten de posibles valores outliers

En una etapa posterior podriacutean evaluarse las posibles relaciones existentes entreciertos pares de variables como paso previo a la utilizacioacuten de una teacutecnica estadiacutesticaavanzada de anaacutelisis multivariante de datos permitiendo asiacute la realizacioacuten de un anaacute-lisis maacutes eficiente y estructurado asiacute como la deteccioacuten de relaciones importantes queposiblemente marcaraacuten el rumbo de cualquier tipo de anaacutelisis maacutes complejo

En el presente trabajo se describen los test estadiacutesticos utilizados en las funcionesde R implementadas por la Unidad de Consultoriacutea Estadiacutestica de la Universidad deOviedo que permiten realizar estos anaacutelisis de tipo preliminar

37

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 54: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

28 Calidad Seis Sigma con RCompetitividad e Innovacioacuten

Emilio Loacutepez Cano Andreacutes Redchuk y Javier M MoguerzaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Seis Sigma es una metodologiacutea puntera para la mejora de procesos y de la CalidadTambieacuten es considerada una filosofiacutea y en cierto modo un conjunto de herramientasEstaacute basada en el ciclo DMAIC (Define Measure Analyze Improve Control - Defi-nir Medir Analizar Mejorar Controlar) Seis Sigma comprende otras singularidadescomo la definicioacuten de los roles dentro de la estructura operacional de Seis Sigma en-tre otros Pero lo que realmente diferencia a Seis Sigma de otras metodologiacuteas es queesencialmente consiste en la aplicacioacuten del Meacutetodo Cientiacutefico a la mejora de procesosSu eacutexito radica en que traduce la complicada terminologiacutea cientiacutefica en una forma faacutecilde aplicar el meacutetodo cientiacutefico dentro de las empresas

En la aplicacioacuten de la Metodologiacutea Seis Sigma se utilizan teacutecnicas estadiacutesticas entodas sus fases tanto geneacutericas (Graacuteficos Disentildeo de Experimentos Contrastes de Hi-poacutetesis Regresioacuten Simulacioacuten Optimizacioacuten) como especiacuteficas (Anaacutelisis de Capaci-dad Anaacutelisis del Sistema de Medida )

La metodologiacutea Seis Sigma requiere de software estadiacutestico Algunos paquetes desoftware estadiacutestico incluyen funciones especiacuteficas para gestioacuten de la calidad sobre to-do en control estadiacutestico de procesos (SPC graacuteficos de control) En el mundo de SeisSigma el software comercial es claramente dominante Consideramos que ya se danlas circunstancias para que R conquiste los entornos corporativos y demostrarlo esuno de los objetivos de este trabajo Mostramos las ventajas geneacutericas de R en entornoscorporativos y aquellas especiacuteficas para llevar a cabo proyectos Seis Sigma Los pa-quetes existentes en CRAN con herramientas para Seis Sigma son descritos incluidoel que actualmente estamos desarrollando (SixSigma)

Otras iniciativas en las que estamos trabajando son diversas publicaciones (incluidoel libro ldquoSix Sigma with Rrdquo para la serie Use R de Springer) asiacute como contenidos es-peciacuteficos tanto en el Master en Ingenieriacutea de Sistemas de Decisioacuten como en el proyectoVRTUOSI (dentro del programa de la Comisioacuten Europea ldquoLifelong Learning Program-merdquo)

Por uacuteltimo una propuesta de proyecto europeo para la uacuteltima convocatoria PPP(Public Private Partnership) FoF (Factories of the Future) de la temaacutetica NMP (Na-nosciences Nanotechnologies Materials and new Production Technologies) seraacute pre-sentada con el tiacutetulo ldquoOpen Platform for Quality Methodologies Improving the Eu-

38

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 55: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

281 Bibliografiacutea

ropean Factoryrdquo (httpwwwnmp-partnersearcheuindexphpindex=22ampnmp_ps_list_cmd=showentryampnmp_ps_list_id=435)

281 Bibliografiacutea[1] ALLEN THEODORE T Introduction to Engineering Statistics and Lean Six Sigma -

Statistical Quality Control and Design of Experiments and Systems Springer 2010

[2] BOX GEORGE laquoTeaching Engineers Experimental Design With a Paper Helicop-terraquo Quality Engineering 1992 4(3) pp 453ndash459

[3] MONTGOMERY DC Introduction to Statistical Quality Control Wiley New York5thordf edicioacuten 2005

39

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 56: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

29 Anaacutelisis de comunidades virtualescon R

Joseacute Felipe Ortega SotoLibresoft Univ Rey Juan Carlos

COMUNICACIOacuteN (PDF)

Internet ha permitido la creacioacuten y desarrollo de un gran nuacutemero de comunida-des virtuales Muchas de ellas como Wikipedia o las comunidades de desarrollo desoftware libre son completamente abiertas y proporcionan ingentes cantidades de in-formacioacuten sobre la actividad que desarrollan sus miembros

GNU R proporciona el soporte necesario para investigadores especialistas y orga-nizaciones que desean entender en detalle coacutemo funcionan estas comunidades y coacutemopoder interactuar con ellas de manera efectiva Para ello es indispensable contar conun enfoque multidisciplinar analizando estas comunidades desde diferentes perspec-tivas evolucioacuten en el tiempo distribucioacuten de esfuerzos y creacioacuten de contenidos re-des sociales identificacioacuten de patrones comunes y clasificacioacuten visualizacioacuten de datoscreacioacuten de modelos etc

La charla pretende ofrecer una panoraacutemica muy general y accessible de las funcio-nalidades que ofrece R para cumplir un amplio espectro de anaacutelisis en este aacuterea Seofreceraacuten algunos ejemplos destacados de este tipo de anaacutelisis para ilustrar la presen-tacioacuten

40

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 57: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

30 Cloudnumbers R en la nube

Carlos Gil Bellostadatanalytics

COMUNICACIOacuteN (PDF)

En los uacuteltimos antildeos ha crecido el intereacutes por la computacioacuten en la nube Las aplica-ciones analiacuteticas y entre ellas muchas de las desarrolladas con R se acomodan a eseparadigma Por ejemplo permiten el acceso puntual a maacutequinas potentes para entre-nar modelos complejos con un coste reducido

Sin embargo muchos de los usuarios potenciales de este tipo de soluciones o bienlas desconocen o bien desconfiacutean de ellas por diversos motivos Ademaacutes el funcio-namiento de algunas plataformas es relativamente complejo y requiere conocimientosteacutecnicos que frenan su adopcioacuten

Cloudnumbers es una empresa que ha desarrollado una plataforma de compu-tacioacuten en la nube especialmente disentildeada para el desarrollo de aplicaciones analiacuteticascon especial eacutenfasis en R y ha creado una interfaz sencilla para facilitar su manejo

41

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 58: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

31 Novedades de Tiki y el PluginR en2011 interfaces web maacutes faacuteciles paraprogramas en R

Xavier de Pedro Puente Ferran Briansoacute y Alex SaacutenchezStatistics and Bioinformatics Unit Vall drsquoHebron Research Institute

COMUNICACIOacuteN

La necesidad de interfaces web para programas en R sigue siendo vigente comose pudo deducir tras asistir a las uacuteltimas jornadas internacionales de usuarios de R- UseR2011 (httpwwwwarwickacukstatsdeptuser-2011) R-Studio liberoacute enel uacuteltimo antildeo su editor que puede ser instalado en un servidor web como softwarelibre y permitir a usuarios remotos ejecutar programas de R en un servidor desde elnavegador web del usuario De forma similar Revolution analytics presentoacute en esasmismas jornadas UseR2011 el trabajo que estaacuten desarrollando para crear una interfazweb propietaria para editar y ejecutar programas de R en el servidor En un futuro cer-cano es posible que funcionen de forma estable aunque por el momento no es el casola instalacioacuten del primero nos falloacute en un servidor GNULinux 64 bits y el segundofue soacutelo un prototipo pre-alfa y ademaacutes de software propietario)

Por otra parte se mostroacute como crear interfaces graacuteficas con gWidgets y a pesar deser esto muy atractivo para hacer maacutes usables nuestros programas en R no solucio-na la necesidad de interfaces web a dichos programas Tirando del hilo del paquetegWidgets probamos el paquete relacionado gWidgetsWWW pero sin eacutexito y con lasensacioacuten de que el paquete no estaacute del todo mantenido pues la documentacioacuten mues-tra cosas que no fuimos capaces de reproducir con el paquete y sin obtener mensajesde error significativos (si es que de alguacuten error de usuario se trataba)

En conclusioacuten siguioacute quedando evidente que hay un cierto vaciacuteo en el campo dela interfaces graacuteficas de usuario viacutea web a los programas de R que permitan a losmiembros de equipos de trabajo tanto editar el coacutedigo cuando sea necesario a traveacutesdel propio navegador web de forma raacutepida y faacutecil (estilo wiki) como permitir a usua-rios interactuar con sus programas a traveacutes de navegador web desde cualquier lugarPor esa misma razoacuten presentamos tambieacuten alliacute lo baacutesico de nuestro trabajo con Tikiy el PluginR (De Pedro y Saacutenchez 2011) incluyendo algunas mejoras que no habiacuteansido mostradas auacuten en la comunicacioacuten presentada en las II Jornadas de usuarios deR en Castellano del antildeo pasado (De Pedro y Saacutenchez 2010) Y a raiacutez de el encuentroUseR2011 hemos incorporado alguna nueva mejora

Asiacute resumiendo las mejoras aparecidas en la aproximacioacuten de Tiki y PluginR eneste uacuteltimo antildeo desde la presentacioacuten de 2010 en castellano podemos decir que en

42

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 59: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

este tiempo se han producido mejoras sustanciales en Tiki y hemos integrado algunasnuevas funcionalidades en el PluginR Por ejemplo se han liberado nuevas versionesde Tiki 6 LTS(de soporte a largo plazo) y la nueva rama estable Tiki 7 que incorporaresaltado y coloreado de sintaxis a tiempo real que ayuda notablemente al usuarioa editar de forma aacutegil el contenido de sus scripts y interfaces directamente desde elnavegador web

43

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 60: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Parte V

Metodologiacutea Miscelaacutenea

44

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 61: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

32 SISAL Algoritmo de seleccioacutensecuencial de variables implementadoen R

Andres Sanz Garcia (Universidad de La Rioja)Ana Gonzalez Marcos (Universidad de La Rioja)Julio Fernandez Ceniceros (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieriacutea y Sistemas SA)

COMUNICACIOacuteN (PDF)

Uno de los principales problemas que se plantean en la Mineriacutea de Datos es la selec-cioacuten de variables especialmente durante la generacioacuten de modelos de prediccioacuten Si elnuacutemero de variables es muy elevado no es factible una estrategia de fuerza bruta paraseleccionar las maacutes importantes existiendo en ese caso tres principales alternativas elenfoque como un filtro como wrapper y por uacuteltimo como embedded [1] La diferenciaentre ellas reside en la forma en la que el meacutetodo de seleccioacuten se integra en el modelode prediccioacuten En este trabajo se presenta la implementacioacuten en R del algoritmo SISAL(Sequential Input Selection ALgorithm) [2] para elegir un conjunto parsimonio de varia-bles de entrada El algoritmo utiliza un enfoque como filtro donde primero seleccionaun conjunto disperso de entradas mediante sucesivos modelos lineales para despueacutesutilizar dichas entradas en el entrenamiento de un sistema de prediccioacuten tanto de tipolineal como no lineal

321 Bibliografiacutea[1] GUYON ISABELLE y ELISSEEFF ANDREacute laquoAn introduction to variable and feature

selectionraquo J Mach Learn Res 2003 3 pp 1157ndash1182 ISSN 1532-4435httpdlacmorgcitationcfmid=944919944968

[2] TIKKA JARKKO y HOLLMEacuteN JAAKKO laquoSequential input selection algorithm forlong-term prediction of time seriesraquo Neurocomput 2008 71 pp 2604ndash2615 ISSN0925-2312 doi 101016jneucom200711037httpdlacmorgcitationcfmid=14012611401324

45

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 62: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

33 intRegGOF un paquete para Bondadde Ajuste mediante Regresioacutenintegrada

Jorge Luis Ojeda CabreraUniversidad de Zaragoza

COMUNICACIOacuteN (PDF)

Este trabajo presenta el desarrollo de un paquete R que implementa contrastes deBondad de Ajuste mediante Regresioacuten Integrada Estas teacutecnicas proponen estudiar elproceso de acumulacioacuten de los residuos a lo largo de los valores de las covariablescomo meacutetodo para detectar la falta de ajuste de un modelo Desafortunadamente elproceso liacutemite tiene una estructura covariante complicada lo que hace necesario im-plementar el test mediante meacutetodos de remuestreo apropiados para el contexto de laregresioacuten El paquete en su estado actual implementa en R este tipo de contrastes paraajustes desarrollados mediante lm glm y nlm tanto para observaciones directas comosesgadas

46

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 63: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

34 KDSeries Una libreriacutea destinadadestinada al tratamiento de seriestemporales en R

Andres Sanz Garciacutea (Universidad de La Rioja)Francisco Javier Martinez-de-Pison-Ascacibar (Universidad de La Rioja)Roberto Fernandez Martinez (Universidad de La Rioja)Fernando Antontildeanzas Torres (Aries Ingenieria y Sistemas SA)

COMUNICACIOacuteN (PDF)

En el presente trabajo se muestra una libreriacutea implementada en R que trata de reco-pilar diversas funciones de uso extendido y relacionadas con el tratamiento de seriestemporales [2] El objetivo principal es facilitar todo el proceso iterativo de estudio ycaracterizacioacuten de una serie temporal por parte del analista por lo tanto el tipo deherramientas implementadas han sido de muy diversa naturaleza Destacan algunasfunciones como las destinadas a determinar el mejor ancho de ventana para un deter-minado filtrado a suavizar la serie temporal eliminando el ruido que pudiera presen-tar [1] a la extraccioacuten y tratamiento de segmentos de series temporales seguacuten umbralespredefinidos por el usuario o a la localizacioacuten y combinacioacuten de patrones caracteriacutesti-cos [3] La libreriacutea ha sido utilizada con exito en el trabajo de los ingenieros de plantacon series temporales de caracter industrial de elevado tamantildeo y con gran cantidadde ruido Se muestra como caso de estudio el anaacutelisis realizado sobre un conjunto demedidas realizadas en una liacutenea de produccioacuten de chapa de galvanizado en caliente(HDGL) El empleo de las citadas funciones permitioacute mejorar la extraccioacuten de patronesuacutetiles para la posterior extraccioacuten de conocimiento no trivial basado en los mismos

341 Bibliografiacutea[1] BROCKWELL PJ y DAVIS RA Introduction to Time Series and Forecasting Sprin-

ger 2002

[2] HAMILTON JAMES DOUGLAS Time Series Analysis Princeton University Press1994

[3] KEOGH EAMONN CHU SELINA HART DAVID y PAZZANI MICHAEL laquoSegmen-ting Time Series A Survey and Novel Approachraquo En In an Edited Volume Datamining in Time Series Databases Published by World Scientific pp 1ndash22 PublishingCompany 1993

47

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 64: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

35 Correcciones taxonoacutemicas de grandesbases de datos de formaautomatizada

Luis CayuelaUniversidad Rey Juan Carlos

COMUNICACIOacuteN (PDF)

En el siglo XXI el uso de las nuevas tecnologiacuteas estaacute permitiendo la compilacioacutende una gran cantidad de informacioacuten bioloacutegica que antes no se encontraba disponi-ble Un claro ejemplo de ello son iniciativas como la Global Biodiversity InformationFacility (GBIF) o el proyecto RAINFOR (Mali et al 2002) Estas bases de datos abrenlas puertas a nuevos estudios que antes no podiacutean ser abordados por limitaciones detiempo y de recursos La compilacioacuten de informacioacuten bioloacutegica procedente de distintasfuentes tiene sin embargo el inconveniente de que los datos necesitan ser estandari-zados de acuerdo a unos mismos criterios taxonoacutemicos Este paso puede suponer unagran inversioacuten de tiempo antes de poder disponer de la informacioacuten para su anaacuteli-sis Actualmente existen distintos recursos electroacutenicos en la red como Species 2000(httpwwwsp2000org) o The Plant List (httpwwwtheplantlistorg) con in-formacioacuten sobre si un determinado nombre cientiacutefico es vaacutelido o es sinoacutenimo de otroMediante el uso de R se pueden crear procedimientos automatizados para consul-tar estas bases de datos y estandarizar la taxonomiacutea de grandes bases de datos a uncoste muy reducido de tiempo En este estudio presentamos un protocolo de trabajopara estandarizar la taxonomiacutea de bases de datos de plantas utilizando The Plant ListIlustramos su uso con la base de datos de aacuterboles tropicales del sur de Meacutexico y Cen-troameacuterica del proyecto BIOTREE-NET (httpwwwbiotreenetcom) Sobre un totalde 3558 nombres el 17 fueron identificados como errores tipograacuteficos el 16 comosinoacutenimos el 65 como nombres aceptados y el 2 como no resueltos Tanto los erro-res tipograacuteficos como los sinoacutenimos fueron cambiados de forma automaacutetica a su formacorrecta o aceptada respectivamente

48

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 65: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

36 Adabag 20 una libreria de R paraadaboostm1 y bagging

Esteban Alfaro Corteacutes Matiacuteas Gaacutemez Martiacutenez y Noelia Garciacutea RubioUniversidad de Castilla-La Mancha

COMUNICACIOacuteN (PDF)

Boosting y Bagging son dos de los meacutetodos de combinacioacuten de clasificadores maacutesutilizados El objetivo es conseguir mejorar la precisioacuten del clasificador mediante lacombinacioacuten de clasificadores individuales con una precisioacuten baja De la familia de al-goritmos boosting Adaboost es el maacutes conocido aunque soacutelo se puede utilizar en pro-blemas dicotoacutemicos AdaboostM1 es una extensioacuten sencilla y natural al caso general dedos o maacutes clases La libreriacutea adabag 20 de R implementa los algoritmos AdaboostM1y Bagging utilizando aacuterboles de clasificacioacuten (CART) como clasificadores individualesUna vez que estos clasificadores han sido entrenados se pueden utilizar para predecirla clase de observaciones nuevas Como elementos de validacioacuten la libreriacutea permiteestimar la precisioacuten de estos clasificadores en un conjunto mediante validacioacuten cruza-da el caacutelculo del margen con que se asigna la clase para las observaciones y tambieacutenproporciona una medida de la importancia de cada una de las variables utilizadasPor uacuteltimo se utilizan varios ejemplos habituales de la literatura de clasificacioacuten parailustrar el uso de esta libreriacutea

Palabras clave AdaboostM1 Bagging R aacuterboles de clasificacioacuten clasificacioacuten

49

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 66: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

37 Dating Business Cycle with R

Ricardo QueraltDpto Meacutetodos Cuantitativos Colegio Universitario de Estudios Financieros

COMUNICACIOacuteN (PDF)

En el presente trabajo se analizan los diversos meacutetodos de fechar las fases del cicloeconoacutemico La importancia de un correcto y raacutepido fechado del ciclo se convierte unaherramienta anaacutelisis fundamental en periodos de crisis como la actual

Ante la no existencia de un software que contenga todos lo algoritmo de fechado yanaacutelisis del ciclo se ha implementado un packageen R que pone a disposicioacuten de losinvestigadores y usuarios todas las teacutecnicas

El estudio incluye el anaacutelisis estadiacutestico y caracterizacioacuten de las distintas fases Re-cesioacuten y Recuperacioacuten

Se aplican las teacutecnicas al ciclo econoacutemico de Espantildea Zona Euro y EEUU Se com-paran los resultados con los obtnidos por el NBER CEPR y ECRI

50

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 67: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

38 La nueva arquitectura del paqueteAMORE (A MORE Flexible NeuralNetwork)

Javier Alfonso Cendoacuten (Universidad de Leoacuten)Manuel Castejoacuten Limas (Universidad de Leoacuten)Joaquiacuten Ordieres Mereacute (Universidad Politeacutecnica de Madrid)Camino Fernaacutendez Llamas (Universidad de Leoacuten)

COMUNICACIOacuteN (PDF)

La paquete AMORE para el entrenamiento y la simulacioacuten de redes neuronales hasido desarrollado por el grupo de investigacioacuten EDMANS y a diferencia de otras al-ternativas existentes en el mercado el usuario del paquete AMORE cuenta con unaalta flexibilidad pudiendo adaptar las estrategias de aprendizaje a sus necesidadesmediante la sencilla programacioacuten de unos complementos en lenguaje R Debido a laalta aceptacioacuten de esta libreriacutea no solo dentro del grupo EDMANS sino tambieacuten fuerade eacutel como muestran las citas bibliograacuteficas realizadas por diversos autores en revistasde impacto se decidioacute actualizar y mejorar la arquitectura de la libreriacutea En el desarro-llo de la nueva arquitectura se han empleado patrones de disentildeo que han permitidomejorar la eficiencia de su programacioacuten hacieacutendola maacutes intuitiva y facilitando lareusabilidad la extensibilidad y el mantenimiento de su coacutedigo El objetivo de este ar-tiacuteculo es exponer algunas de las principales virtudes que caracterizan la nueva versioacutendel paquete AMORE

51

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 68: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

39 Nomogramas con R

Luis Mariano Esteban (Escuela Universitaria Politeacutecnica de La Almunia Univer-sidad de Zaragoza)Gerardo Sanz (Departamento de Meacutetodos Estadiacutesticos Universidad de Zaragoza)Angel Borque (Hospital Universitario Miguel Servet)Joseacute Lopez Torrecilla (Hospital General Universitario de Valencia)Jokin del Amo (Progenika Biopharma SA)

COMUNICACIOacuteN (PDF)

Un nomograma es una representacioacuten graacutefica que permite realizar con rapidezcaacutelculos numeacutericos aproximados [1] Dentro del campo de la medicina es frecuenteque este tipo de graacuteficos este asociado al calculo de probabilidades de ocurrencia deun evento o una caracteriacutestica asociada a una enfermedad Aunque existen otro tipo deherramientas de caacutelculo viacutea web para estas probabilidades el uso de nomogramas estamuy extendido en diversos problemas como por ejemplo el calculo de probabilidadesde recurrencia en distintos tipos de caacutencer SAS y R probablemente hayan sido los pro-gramas mas usados para la construccioacuten de nomogramas En R existen libreriacuteas comorms y Design [2] que permiten la construccioacuten de estos graacuteficos con una gran capaci-dad de adaptacioacuten a las necesidades del modelo predictivo Si bien la construccioacuten deestos modelos y su representacioacuten graacutefica es posible con distintas opciones es difiacutecilpensar que la validacioacuten de los mismos se puede hacer de una manera mas completaque con el uso de distintas libreriacuteas de R La validacioacuten de un modelo esta basada en sucalibracioacuten discriminacioacuten y utilidad cliacutenica cada uno de esos apartados puede ser es-tudiados con el uso de R mediante libreriacuteas como Hmisc [2] CPE [3] o funciones comodca [4] En este trabajo se pretende analizar el uso de todas estas libreriacuteas ilustraacutendolocon la experiencia desarrollada en la construccioacuten de modelos predictivos en caacutencer deproacutestata

52

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 69: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Parte VI

Concurso Nestoria

53

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 70: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

40 Mapas temaacuteticos a tiempo real

Sabarich Raquel

COMUNICACIOacuteN (PDF)

Dada la necesidad en una misma ciudad de escoger la zona barrio donde alquilaro comprar una vivienda en funcioacuten del precio se plantea la posibilidad de observarcuaacuteles son los precios de las viviendas a un nivel de detalle inferior al del municipioy superior al de los datos de cada una de las mismas Ademaacutes los mapas ofrecen laposibilidad de entender los resultados estadiacutesticos de una forma maacutes raacutepida y faacutecil

Mi propuesta basada en el lenguaje de programacioacuten R consiste en la realizacioacuten demapas temaacuteticos a tiempo real del precio de vivienda de la zona escogida Con los si-guientes paraacutemetros de entrada tipo (alquilerventa) latitud longitud nivel de zoompaiacutes y resultado a mostrar (precioprecio por msup2precio por habitacioacuten) se obtiene unmapa estaacutetico de google maps coloreado seguacuten la variable indicada para mostrar

Se ha utilizado la API facilitada por Nestoria para leer los Microdatos de las vivien-das (peticioacuten mediante coordenadas latitud longitud) Dado que el maacuteximo permitidopor peticioacuten no puede ser mayor a 1000 resultados en aquellos mapas con un bajo ni-vel de zoom se han realizado diversas peticiones Para poder ejecutar el script se utilizatambieacuten una peticioacuten a Google Static maps para obtener la imagen de la zona (antesera necesaria la obtencioacuten de una clave pero en la nueva versioacuten ya no es necesaria)a traveacutes de una funcioacuten del paquete RgoogleMaps Tambieacuten seriacutea posible utilizar losmapas estaacuteticos de Open Street Map con dicho paquete

Las viviendas se han agrupado en cuadrados de 300x300 metros (poliacutegonos) parapoder agrupar viviendas cercanas y facilitar la visualizacioacuten Para cada cuadrado sehan excluido aquellos valores fuera de los liacutemites de 25 veces la desviacioacuten estaacutendarde la media Para poder realizar los poliacutegonos de 300 por 300 metros se han realiza-do varias transformaciones entre los sistemas de coordenadas latitudlongitud y utmdado que en este uacuteltimo las coordenadas indican metros y es posible realizar caacutelculossobre ellas de una forma sencilla Para suavizar el hecho de que las coordenadas no sonexactas sino que pueden tener una desviacioacuten de hasta 100 metros el resultado de lavariable para cada poliacutegono consiste en una media ponderada que tiene en cuenta nosoacutelo las viviendas del propio poliacutegono sino tambieacuten las de los colindantes (06mediapoliacutegono + 04media de los 8 poliacutegonos colindantes) Esta medida resuelve tambieacuten elproblema de algunos poliacutegonos sin datos en los cuales siempre que dispongan de 4 omaacutes poliacutegonos colindantes se obtendraacute un valor de resultado interpolado

Los resultados a mostrar pueden ser el precio el precio por msup2 y el precio por ha-bitacioacuten El precio por msup2 soacutelo estaacute disponible en Espantildea y Italia dado que los otrospaiacuteses no tienen esta variable lo suficientemente informada Para el valor del alquiler

54

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 71: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

se muestran los resultados a nivel mensual de forma que los valores para los alquile-res semanales se han extrapolado a mensuales Se han calculado las bandas de colorde forma que cada una de las bandas contenga un 17 (16) de los datos es decir unsextil

55

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 72: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Autores e Instituciones

56

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 73: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Iacutendice de autores

Aguilera del Pino Ana M 28Aguilera Morillo M Carmen 28Alfaro Corteacutes Esteban 49Alfonso Cendoacuten Javier 51Antontildeanzas Torres Fernando 15 45 47

Baccalaacute Nora 29Barragaacuten Andreacutes Sandra 32Borque Angel 31 52Briansoacute Ferraacuten 42

Cantildeadas Reche Joseacute Luis 27Cantildeizares Jover Federico 15Cadarso Suaacuterez Carmen Mariacutea 7Calle Mariacutea L 11Cardarso Suaacuterez Carmen 9Castejoacuten Limas Manuel 51Castellanos Miguel Angel 23Cayuela Luis 48Concejero Pedro 23Conesa Guillen David Valentin 6Corteacutes Jorge 5Crespo Ineacutes 29Cuadras Carles M 26

Diacuteaz Diacuteaz Patricia 25 36 37de la Cruz Rot Marcelino 14de las Rivas Sanz Javier 8de Pedro Puente Xavier 42del Amo Jokin 52

Escabias Machuca Manuel 28Esteban Luis Mariano 31 52

Fernaacutendez Llamas Camino 51Fernaacutendez Temprano Miguel A 32Fernandez Ceniceros Julio 45Fernandez Martinez Roberto 47

Ferrer Castaacuten Dolores 18

Gaacutemez Martiacutenez Matiacuteas 49Goacutemez Guadalupe 5Galindo M Purificacioacuten 29Garciacutea Rubio Noelia 49Garciacutea Vaacutezquez Rafael Francisco 18Gil Bellosta Carlos 41Gonzaacutelez Goacutemez Alexandra 25 36 37Gonzalez Marcos Ana 45Guardiola Martiacutenez Xavier 35Gude Sampedro Francisco 7

Herranz Valera Jesuacutes 11Hijmans Robert J 17

Iglesias Cabo Tania 25 36 37

Juliaacute Olga 5

Loacutepez Cano Emilio 38Loacutepez de Ullibarri Ignacio 9Loacutepez Fidalgo Jesuacutes 8Loacutepez Quiacutelez Antonio 6Loacutepez Ratoacuten Moacutenica 7Loacutepez Torrecilla Joseacute 52Lopes Celeste 29Luz Calle Mariacutea 3

Maiacutello Aacutengel 29Malats Nuacuteria 11Martiacutenez Beneito Miguel Angel 6Martiacutenez Indart Lorea 4Martinez-de-Pison-Ascacibar Francisco

Javier 47Meira-Machado Luiacutes 2Melo Martiacutenez Carlos E 22Melo Martiacutenez Oscar O 22 26Melo Martiacutenez Sandra E 22 26

57

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 74: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Iacutendice de autores Iacutendice de autores

Moguerza Javier M 38Moneta Victoria 5Morales Barbero Jennifer 18Morales Cabrera Rafael 15

Nieto Librero Ana Beleacuten 29

Ojeda Cabrera Jorge Luis 46Ojeda Fernaacutendez Manuel 15Ordieres Mereacute Joaquiacuten 51Orfao Alberto 29Ortega Soto Joseacute Felipe 40

Palacios Brihuega Irene 27Patino M del Carmen 29Peddada Shyamal D 32Perpintildeaacuten Lamigueiro Oscar 15 17 20Picornell Antoni 11Pijoan Zubizarreta Jose Ignacio 4Prieto Saacutenchez Carlos 8

Queralt Ricardo 50

Redchuk Andreacutes 38Rivas Loacutepez Mariacutea Jesuacutes 8Roca Pardintildeas Javier 10Rodriacuteguez Aacutelvarez Mariacutea Xoseacute 7 9Rueda Sabater Cristina 32

Saacutenchez Santos Joseacute Manuel 8Saacutenchez Alex 42Sabarich Raquel 54Sanz Garciacutea Andres 45Sanz Garcia Andres 47Sanz Gerardo 31 52Serrat Piegrave Carles 5Sestelo Marta 10Sousa Pablo 29

Tabernero M Dolores 29

Urkaregi Etxepare Arantza 4Urrea Gales Viacutector 3

Valderrama Bonnet Mariano J 28van Etten Jacob 17Verdejo Francisco 6Vicente Purificacioacuten 29Villanueva Nora M 10Villegas Paulo 23

58

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones
Page 75: Libro de Resumenes pdfauthor - Comunidad R Hispanor-es.org/3jornadasR/LibroResumenes.pdfMarcelino de la Cruz Rot Universidad Politécnica de Madrid ... Carlos Eduardo Melo Martínez

Iacutendice de Instituciones

Aries Ingenieriacutea y Sistemas 45 47

Centro Nacional de Investigaciones On-coloacutegicas 11

Centro Superior de Investigaciones Cien-tiacuteficas 27

Colegio Universitario de Estudios Finan-cieros 50

Complejo Hospitalario Universitario deSantiago de Compostela 7

datanalytics 41

Escuela de Organizacioacuten Industrial 15Euskal Herriko Unibertsitateko 4

Hospital de Cruces 4Hospital General Universitario de Valen-

cia 52Hospital Universitario de Salamanca 29Hospital Universitario Miguel Servet 31

52

IE Universidad 17Institut Catalagrave drsquoOncologia 5

National Institute of Environmental HealthSciences 32

Progenika Biopharma SA 52

Telefoacutenica Investigacioacuten y Desarrollo 23

Universidad Complutense de Madrid 23Universidad de Barcelona 26Universidad de Castilla La Mancha 8

49Universidad de Coimbra 29Universidad de Granada 28Universidad de La Rioja 45 47

Universidad de Leoacuten 51Universidad de Minho 2Universidad de Oviedo 25 36 37Universidad de Salamanca 8 18 29Universidad de Valladolid 32Universidad de Zaragoza 31 46 52Universidad del Paiacutes Vasco 4Universidad Distrital Francisco Joseacute de

Caldas 22Universidad Nacional de Colombia 22

26Universidad Nacional del Comahue 29Universidad Politeacutecnica de Madrid 14

15 17 20 51Universidad Rey Juan Carlos 38 40 48Universidade da Coruntildea 9Universidade de Santiago de Compos-

tela 7 9Universidade de Vigo 10Universitat de Barcelona 5Universitat de Valencia 6Universitat de Vic 3 11Universitat Politegravecnica de Catalunya 5University of California 17

Vall drsquoHebron Research Institute 42

Xarxa Santa Tecla 35

59

  • Iacutendice general
  • Informacioacuten General
    • Descripcioacuten
    • Informacioacuten uacutetil
    • Comiteacute cientiacutefico
    • Comiteacute organizador
    • Patrocinadores
    • Programa
      • I Biostatnet
        • 1 An R Package for the inference in a multi-state illness-death model
        • 2 AUCRF una libreriacutea para la buacutesqueda de perfiles geneacuteticos
        • 3 Comprobacioacuten de las propiedades del Propensity Score y de sus aplicaciones mediante las opciones graacuteficas de R
        • 4 Dos nuevas libreriacuteas para anaacutelisis de la supervivencia dcens y bwsurvival
        • 5 FluDetWeb an interactive web-based system for the early detection of the onset of influenza epidemics
        • 6 OptimalCutpoints un paquete en R para la seleccioacuten de puntos de corte oacuteptimos en las pruebas diagnoacutesticas
        • 7 Paquete de R ``alteredExpression algoritmo para localizar genes con perfil de expresioacuten alterado por una enfermedad
        • 8 ROCRegression un paquete en R para la incorporacioacuten de covariables en el anaacutelisis ROC
        • 9 Un paquete de R para analizar interacciones factor por curva
        • 10 Una solucioacuten integrada con R para el anaacutelisis de interacciones entre genes con datos de supervivencia en un estudio GWAS
          • II Ambiental Espacial Miscelaacutenea
            • 11 Algunas aplicaciones de R en ecologiacutea de la docencia elemental a la investigacioacuten avanzada
            • 12 Comparativa y anaacutelisis de variabilidad espacial entre medidas de radiacioacuten solar terrestre (SIAR) y satelital (CM-SAF)
            • 13 Datos geograacuteficos de tipo raster en R
            • 14 Deteccioacuten de patrones espaciales de biodiversidad de aacuterboles y mamiacuteferos en la Peniacutensula Ibeacuterica
            • 15 solaR geometriacutea radiacioacuten y energiacutea solar en R
            • 16 Implementacioacuten y Disentildeo de Herramientas para el Anaacutelisis Geoestadiacutestico en R y Comparacioacuten Geoestadiacutestica entre Arcgis y R
            • 17 Psicometriacutea avanzada con R a partir de datos de personalidad en ``myPersonality
              • III Anaacutelisis de Datos Empresa
                • 18 Anaacutelisis de muestras complejas con R La Encuesta de Calidad de Vida en el Trabajo
                • 19 Inferencia en anaacutelisis de datos longitudinales a traveacutes del modelo basado en distancias utilizando R
                • 20 Modelizacioacuten con R de la heterocedasticidad en modelos de regresioacuten ordinal
                • 21 Modelizacioacuten y Prediccioacuten con Datos Funcionales en R
                • 22 Multibiplotgui un paquete en R para el tratamiento de datos de conjuntos muacuteltiples
                • 23 MMLM Una funcioacuten para construir modelos predictivos con mayor capacidad de discriminacioacuten
                • 24 El paquete de R isocir Inferencia Isotoacutenica con Datos Circulares resolviendo problemas de la Biologiacutea Molecular
                  • IV Web Informes Calidad
                    • 25 Brew o coacutemo mezclar R y texto para generar informes repetitivos
                    • 26 Elaboracioacuten personalizada de informes sobre la Prueba de Acceso a la Universidad
                    • 27 Informes automatizados con Estadiacutestica univariante y bivariante
                    • 28 Calidad Seis Sigma con R Competitividad e Innovacioacuten
                    • 29 Anaacutelisis de comunidades virtuales con R
                    • 30 Cloudnumbers R en la nube
                    • 31 Novedades de Tiki y el PluginR en 2011 interfaces web maacutes faacuteciles para programas en R
                      • V Metodologiacutea Miscelaacutenea
                        • 32 SISAL Algoritmo de seleccioacuten secuencial de variables implementado en R
                        • 33 intRegGOF un paquete para Bondad de Ajuste mediante Regresioacuten integrada
                        • 34 KDSeries Una libreriacutea destinada destinada al tratamiento de series temporales en R
                        • 35 Correcciones taxonoacutemicas de grandes bases de datos de forma automatizada
                        • 36 Adabag 20 una libreria de R para adaboostm1 y bagging
                        • 37 Dating Business Cycle with R
                        • 38 La nueva arquitectura del paquete AMORE (A MORE Flexible Neural Network)
                        • 39 Nomogramas con R
                          • VI Concurso Nestoria
                            • 40 Mapas temaacuteticos a tiempo real
                              • Autores e Instituciones
                                • Iacutendice de autores
                                • Iacutendice de Instituciones