Análisis y Manejo de Tendencia Local Para Calibrar

24
Islas López Sandy Paulina Pérez Soto Mónica Nohemí Sánchez Pérez Alfredo ANÁLISIS Y MANEJO DE SESGO LOCAL PARA LA CALIBRACIÓN DE LOS MODELOS DE ESTIMACIÓN DE COSTOS PARAMÉTRICOS.

description

descripcion

Transcript of Análisis y Manejo de Tendencia Local Para Calibrar

Anlisis y manejo de tendencia local para calibrar modelos de valoracin de coste paramtricos.

Islas Lpez Sandy PaulinaPrez Soto Mnica Nohem Snchez Prez Alfredo

Anlisis y manejo de Sesgo local para la calibracin de los modelos de estimacin de costos paramtricos.Introduccin: Los modelos de estimacin de costos paramtricos deben ser calibrados y mejorados para asegurar las estimaciones de software ms precisas y reflejar la evolucin de los contextos de desarrollo de software de forma continua. La calibracin local sintonizando con un subconjunto de los parmetros del modelo es una prctica frecuente cuando las organizaciones de software adoptan modelos de estimacin paramtricos para aumentar el modelo de usabilidad y precisin. Sin embargo, hay una falta de comprensin acerca de los efectos acumulativos de estas prcticas de calibracin local sobre la evolucin de los modelos paramtricos generales con el tiempo.

En la prctica, los modelos paramtricos tpicos para la valoracin de esfuerzo son calibrados sobre una amplia gama de datos de industria, y muchos modelos conocidos como COCOMO II (CII), SEER-SEM, y PRICE-S tambin abogan por la calibracin local para mejorar la exactitud de estimaciones modeladas.

Mtodo: Este estudio tiene como objetivo analizar cuantitativa y eficazmente el manejo de sesgo local asociada con los datos histricos entre empresas, por tanto, mejora la usabilidad de los conjuntos de datos entre empresas para la calibracin y mantenimiento de modelos de estimacin paramtricos.

Objetivo: Diseamos y realizamos tres estudios empricos para medir, analizar y abordar la tendencia local en el conjunto de datos entre empresas, incluyendo:La definicin de un mtodo para medir el sesgo local asociada a cada organizacin del subconjunto de datos en el conjunto de datos en general.El anlisis de los impactos de la parcialidad local en el desempeo de un modelo de estimacin.Proponer un enfoque de muestreo ponderado para manejar sesgo local. Los estudios se llevan a cabo en el ltimo conjunto de datos de calibracin COCOMO II.

El Modelo COCOMO IILleva en nombre de COCOMO por COnstructive COst MOdel: modelo constructivo de costos.El modelo COCOMO original se convirti en uno de los modelos de estimacin de costo mas ampliamente utilizados y estudiados en la industria. Evoluciono hacia un modelo de estimacin mas exhaustivo, llamado COCOMO II, que aborda las siguientes reas:

Modelo de composicin de aplicacin.Modelo de etapa temprana de diseo.Modelo de etapa postarquitectnica. MetodologaComo se muestra en la Figura, un modelo paramtrico usualmente evoluciona siguiendo un ciclo de cuatro etapas:

La construccin del modelo.La localizacin del modelo.El uso del modelo. La calibracin del modelo.

El motivo de esto es investigar los desajustes durante el ciclo evolutivo de un modelo paramtrico de estimacin de costos, es decir, los desajustes entre un modelo general y sus variantes localizadas del modelo.Cuando un modelo paramtrico es desarrollado, hay un conjunto inherente de suposiciones y un conjunto de datos de calibracin inicial utilizado para validarlo. Como organizaciones de software, adoptan un modelo paramtrico, que en gran medida dependen de su propio conocimiento de datos y administracin de dominio histrico.

En trminos generales existen tres tipos de hiptesis locales consideradas por el usuario en la fase de localizacin de modelo, incluyendo:Hiptesis de parmetros constantes: Normalmente, los usuarios ajustan los parmetros de los modelos de estimacin, por ejemplo, los parmetros de ajuste A y B del modelo COCOMO II en sus propios datos histricos y experiencia.Hiptesis de la estructura del modelo: Los usuarios tambin pueden cambiar la estructura del modelo de estimacin. En la prctica, los usuarios de COCOMO II generalmente suprimen o fusionan algunos factores de coste en funcin de su entorno de desarrollo nico.Costo hiptesis de uso de controlador: : Los usuarios pueden tener diferentes juicios subjetivos sobre el uso del factor de costo contra los supuestos generales del modelo de estimacin. Este tipo de hiptesis es inherente al proceso de juicio humano, y por lo tanto no en el alcance de nuestro estudio.

El modelo paramtrico en general sigue una estructura similar a la COCOMO II, es decir, el clculo de esfuerzo de la ecuacin (1) como la siguiente:

Donde :Effort es el esfuerzo estimado del proyecto medido en Persona-Mes (PM)A es la constante multiplicativaB es la constante exponencial SF es un acrnimo de "factor de escala ("Scale Factor")EM es un acrnimo de "Esfuerzo multiplicador ("Effort Multiplier")Tamao (Size) se mide en Miles de Lneas de Cdigo Fuente (KSLOC)(Thousands of Source Lines of Code)

Mtodo de investigacin Se llevan a cabo estudios empricos sobre un conjunto de datos para analizar y manejar la parcialidad local. Consisten principalmente de tres partes:

Estudio 1: Medir la parcialidad local de una manera cuantitativa. Se introduce una medida de parcialidad y la conducta anlisis local de la parcialidad local utilizando la medida propuesta.Estudio 2: Medicin y anlisis de impactos de parcialidad local en el desempeo del modelo. Se introduce un mtodo para evaluar los impactos de la parcialidad local en el rendimiento de la estimacin del modelo CII, y realizamos un anlisis de correlacin para verificar que la parcialidad local puede ser perjudicial para el rendimiento de un modelo de estimacin paramtrica.Estudio 3: Manejo de los impactos de la parcialidad local cuando la realizacin de la calibracin del modelo utilizando datos de corte de la compaa. Empleamos un mtodo de muestreo ponderado para reducir los impactos negativos de locales.

Para cada uno de estos estudios, vamos a introducir los correspondientes mtodos, procesos y resultados en las siguientes secciones.Conjuntos de datosEl ltimo conjunto de datos CII2010 se utiliza en nuestro estudio, que viene desde el Centro de Sistemas e Ingeniera de Software de la Universidad del Sur de California. El conjunto de datos contiene el esfuerzo real, tamao real, y las calificaciones de los multiplicadores de esfuerzo y los factores necesarios para calibrar el modelo CII a escala. El conjunto de datos contiene dos subgrupos: El subconjunto CII2000 que incluye 161 puntos de datos de calibracin del 16 organizacin.El subconjunto After2000 que incluye 92 puntos de datos adicionales recin recogidos desde el ao 2000. Medir la parcialidad local (RQ1)Medida de parcialidades locales

En base a los supuestos de investigacin, para cada organizacin que realiza la calibracin local y mantiene su versin local de modelo CII. La gama de la parcialidad local es [0, + 1], y la razn de tomar el valor absoluto es que slo nos centramos en el estudio de la magnitud de la parcialidad local. Cuando sesgo local, es igual a 0, que significa que el modelo local coincide exactamente con el modelo general CII. Esta definicin es consistente con la intuicin de que la mayor A y B se desvan de A y B, respectivamente, las mayores son las parcialidades locales.

Medir las parcialidades localesEl proceso de anlisis, esta compuesta por los siguientes pasos:Para cada grupo en el subconjunto After2000. Llevamos a cabo una calibracin local representativa a partir de datos en slo ese grupo y producimos su A local y B. Al hacer esto, aproximamos la calibracin local real y productividad de la organizacin. Calcular el valor Parcialidad Local para cada grupo en el subconjunto After2000.Comparar valores de parcialidades locales entre todos los grupos. Analizando el impacto del sesgo local (RQ2)Se lleva a cabo un estudio ms para analizar el impacto de After2000 en el rendimiento del modelo.Los pasos para analizar los impactos de la parcialidad local, incluyen:Analizar el cambio en el rendimiento global despus de la introduccin de nuevos datos entre empresas. Comparamos el rendimiento del modelo CII en el subconjunto CII2000 de un conjunto de datos completo como CII2010. Los resultados de la comparacin dibujarn un panorama general de los impactos de datos entre la empresa recin recogidos sobre el rendimiento del modelo. Analizando el impacto del sesgo local en cada grupo de datos. Aadimos un grupo de datos del subconjunto After2000 en el subconjunto CII2000 independientemente cada vez, lo que produce un nuevo conjunto de datos. El anlisis de la relacin entre las medidas el sesgo y del rendimiento local. Despus de analizar el impacto del sesgo local en el rendimiento del modelo, estudiamos an ms la relacin entre las medidas el sesgo y de funcionamiento locales. Llevamos a cabo anlisis de correlacin en las medidas el sesgo y de funcionamiento locales. Manipulacin del sesgo localEn la prctica, como los procesos y tecnologas de desarrollo de software cambian con el tiempo, la validez de las hiptesis del modelo, los valores de los parmetros por defecto, y los esquemas subyacentes para la estimacin del esfuerzo necesita ser monitoreado y mantenido a travs de la calibracin del modelo para adaptarse a dichos cambios. De lo contrario, las primeras versiones de modelo de estimacin pueden exhibir una degradacin de los rendimientos graves en los datos posteriores del proyecto.Como se muestra en la figura, se sugiere agregar un anlisis de sesgo local y el manejo de la etapa en el ciclo de evolucin de los modelos paramtricos. La operacin de manejo de sesgo local primero evala el sesgo local en cada grupo de datos que se introducir y, a continuacin, intenta mitigar sus impactos negativos sobre el rendimiento del modelo. El mtodo propuesto para el manejo de sesgo local, se discute en las siguientes subsecciones.

Mtodos para el manejo de sesgos localesEmpleamos la tcnica de muestreo ponderado para manejar los impactos OS sesgo local. Nuestro enfoque para manejar sesgo local se basa en la siguiente hiptesis:

Conjunto de datos histrica local con un mayor sesgo local, presenta un esquema ms diferente para la estimacin de costos, y que se le debe asignar un peso ms bajo al ser utilizado para la calibracin del modelo.

Consideramos el subconjunto CII2000 como el conjunto de datos de referencia, i, e., El sesgo local del subconjunto CII2000 es igual a 0.

La figura describe el procedimiento general de calibrar una nueva versin del modelo COCOMO II utilizando nuestro enfoque. En primer lugar, cada grupo de datos en el subconjunto After2000 y el subconjunto CII2000 se le asignan diferentes pesos de acuerdo con su correspondiente sesgo local. Luego realizamos un muestreo de peso para producir un nuevo conjunto de datos para el uso de la calibracin del modelo. Los siguientes tres subsecciones dan ms detalles sobre el procedimiento de calibracin del modelo.

Muestreo de datosDespus de asignar pesos a cada grupo de datos, realizamos un muestreo ponderado para producir un nuevo conjunto de datos para la calibracin del modelo. La unidad de muestreo es un grupo de datos en el subconjunto.En este estudio, utilizamos una tcnica de re muestreo simplificado para producir el nuevo conjunto de datos para la calibracin del modelo que sigue aproximadamente la misma distribucin proporcional como los pesos de cada grupo subconjunto/datos.Evaluacin y discusinPara examinar la eficacia de nuestro enfoque propuesto para el manejo de sesgos locales, se dise un estudio de comparacin con las siguientes dos lneas de base:Lnea de base 1: Esta lnea de base se refiere a la situacin en la que se lleva a cabo ninguna calibracin como se recogen nuevos datos histricos, ic, los usuarios adopten el modelo CII en general por defecto para todos los proyectos.Lnea de Base 2: el modelo calibrado con pesos iguales. Esta lnea de base se refiere a la situacin en la que no se emplea la estrategia de manejo de parcialidad local cuando la calibracin del modelo CII con datos comparativos de la empresa recin recolectados.

MedidasA partir del estudio, hemos proporcionado una medida simplificada, prctica para cuantificar y visualizar el sesgo local introducidos por la calibracin local en las organizaciones que adoptan modelos de costos paramtricos, la validez de los datos est garantizada y el modelo es totalmente garantizado por cada organizacin, el representante local de A y B se pueden utilizar aproximadamente para que reflejen los supuestos parmetros constantes locales y los supuestos modelos de estructura locales.

Medicin y anlisis de parcialidad local.El anlisis de correlacin demuestra que hay dos componentes que impulsan el rendimiento del modelo disminuido mediante la introduccin de datos adicionales en el conjunto de datos CII2000: el grado de la tendencia local y el nmero de puntos de datos de cada grupo de datos adicional. Los resultados del anlisis tambin verifican que la tendencia local es perjudicial para calibracin en general, porque reduce la precisin y fiabilidad de los datos que se utiliza para calibrar. Es razonable concluir que se adopta la calibracin ms amplia.

ManipulacinLos resultados del estudio muestran que los nuevos datos de la empresa son valiosos para la calibracin del modelo y las estrategias de muestreo basados en la tendencia local ponderados que propusimos. Tenemos que destacar que nuestro mtodo propuesto no puede abordar plenamente el problema de modelo en nuevos datos. Aadiendo nuevos datos en el conjunto de datos de calibracin mejora el rendimiento del modelo de datos de proyectos temporales.

Resultados: Los resultados muestran que el sesgo locales existe en gran parte en el conjunto de datos de la empresa, y el sesgo local, afecta negativamente el rendimiento del modelo paramtrico. La tcnica de muestreo ponderado basado en el sesgo local ayuda a reducir los impactos negativos de la parcialidad local en el desempeo del modelo.

Conclusin:La tendencia local en datos de la empresa realmente daa la calibracin del modelo y aade factores ruidosos para modelar el mantenimiento. La medida propuesta del sesgo local ofrece un medio para cuantificar el grado de sesgo local asociado con un conjunto de datos entre empresas, y evaluar su influencia en el rendimiento del modelo paramtrico. La tcnica de muestreo ponderado basado en el sesgo local puede ser aplicada a la compensacin y mitigar el riesgo potencial de sesgo local significativo, lo que limita la capacidad de uso de datos de corte de la compaa para la calibracin del modelo paramtrico general y mantenimiento.