Fiab_2

Identificación y descripción gráfica de los datos

Proyecto e-Math 1 Financiado por la Secretaría de Estado de Educación y Universidades (MECD)

FIABILIDAD (II): IDENTIFICACIÓN Y DESCRIPCIÓN GRÁFICA DE LOS DATOS

Autores: Ángel A. Juan Pérez ([email protected]), Rafael García Martín ([email protected]).

RELACIÓN CON OTROS MATH-BLOCS__________________________________

Este math-block forma parte de una serie de 8 documentos relacionados todos ellos con la Fiabilidad de componentes desde un punto de vista estadístico:

• Conceptos Básicos (I). • Identificación y descripción gráfica de los datos (II). • Análisis paramétrico de los tiempos de fallo (III). • Análisis no paramétrico de los tiempos de fallo (IV). • Comparación no paramétrica de muestras (V). • Tests de vida acelerada (VI). • Modelos de regresión para observaciones censuradas (VII). • Análisis Probit (Éxito / fracaso) (VIII).

MAPA CONCEPTUAL_________________________________________________

Descripción gráfica de la distribución de

ajuste (Minitab)

Fiabilidad (II): Identif. y descripción gráfica

Gráficos de probabilidad Identificación gráfica

de la distribución de ajuste (Minitab)

Paramétrica

Estadístico Anderson-Darling

No paramétrica



INTRODUCCIÓN_____________________________________________________

Supongamos que se dispone de una relación de tiempos de fallo asociados a un determinado dispositivo, i.e., se tienen n observaciones de la v.a. T = “tiempo transcurrido hasta que se produce el fallo”. Lo primero que convendría hacer es tratar de identificar alguna distribución conocida a la cual se ajustasen bien las observaciones, pues ello nos simplificaría el análisis descriptivo de los datos, así como la realización de inferencias sobre la población.

En muchas ocasiones será posible identificar la distribución que mejor se aproxima a las observaciones mediante el uso de gráficos de probabilidad. Este tipo de gráficos muestran la f.d. linealizada de una distribución teórica junto con una nube de puntos que representan estimaciones (no paramétricas) puntuales de la f.d. de T. Evidentemente, cuanto más se aproxime la nube de puntos a la recta que aparece en el gráfico, tanto mejor será el ajuste.

Si se lograse aproximar la distribución de T mediante alguna distribución teórica conocida, sería posible usar esta última para representar gráficamente estimaciones de la función de supervivencia, de la f.d.p., y de la tasa de fallos (descripción paramétrica) de las observaciones. En caso contrario, será necesario recurrir a la estimación puntual de la f.d. asociada a T para representar gráficamente estimaciones de las funciones anteriores (descripción no paramétrica).

En este math-block se hará uso del programa estadístico MINITAB para identificar y describir gráficamente la distribución que mejor se ajuste a un conjunto de observaciones que usaremos como ejemplo.

Las posibles distribuciones de ajuste son: la normal, la lognormal (base e), la Weibull, y la exponencial.

GRÁFICOS DE PROBABILIDAD_________________________________________

Al representar gráficamente las funciones de distribución (f.d.) de las diferentes distribuciones teóricas, se obtienen curvas muy similares, muchas de ellas difíciles de ser identificadas a simple vista. Es por ello que se utilizan los gráficos de probabilidad, los cuales hacen uso de escalas especiales en los ejes, de manera que al representar la f.d. ésta tenga forma lineal.

El primer paso será pues encontrar la transformación adecuada para t y F(t) de modo que al representar t vs. F(t) se obtenga una función lineal.

Ejemplo (linealización de una Weibull): La f.d. asociada a una distribución Weibull de dos parámetros (α, β) viene dada por la expresión:

F(t) = 1 – exp{-(t/α)β} con α, β > 0

Esta función puede ser linealizada (i.e., puesta de la forma: y = a + bx) como sigue:

F(t) = 1 – exp{-(t/α)β} ⇒ ln(1-F(t)) = ln(exp{-(t/α)β}) ⇒ ln(1-F(t)) = -(t/α)β ⇒ ⇒ ln(-ln(1-F(t))) = β⋅ln(t/α) ⇒ ln(ln(1-F(t))-1) = β⋅ln(t) - β⋅ln(α)

Tomando ahora y = ln(ln(1-F(t))-1) , y x = ln(t) la f.d. puede rescribirse en forma lineal como:

y = β⋅x - β⋅ln(α).

A continuación se representa gráficamente la f.d. de una Weibull (con escala α = 10 y forma β = 4) y su versión linealizada:



Escala (alpha) = 10 WEIBULL Forma (beta) = 4

t F(t) x = ln(t) y = ln(ln(1-F(t))-1) 1 0,00 0,00 -9,2 2 0,00 0,69 -6,4 3 0,01 1,10 -4,8 4 0,03 1,39 -3,7 5 0,06 1,61 -2,8 6 0,12 1,79 -2,0 7 0,21 1,95 -1,4 8 0,34 2,08 -0,9 9 0,48 2,20 -0,4 10 0,63 2,30 0,0 11 0,77 2,40 0,4 12 0,87 2,48 0,7 13 0,94 2,56 1,0 14 0,98 2,64 1,3 15 0,99 2,71 1,6 16 1,00 2,77 1,9

Una vez conocidas las transformaciones que permiten linealizar la f.d. asociada a una distribución, es posible construir una plantilla especial (con los ejes graduados de forma adecuada) sobre la cual representar una nube de puntos que contenga cada uno de los tiempos de fallo observados (eje x) junto con el valor (estimado) de la f.d. asociado a dicha observación (eje y).

Para cada punto (xj,yj), el valor xj vendrá dado por la j-ésima observación tj (instante en que se ha producido el fallo j-ésimo). Más complicado será hallar el valor de la coordenada yj, la cual representará el valor estimado de F(tj). Es usual estimar el dicho valor mediante los llamados rangos medianos, los cuales se pueden calcular, en el caso de la distribución Weibull con observaciones completas (sin censura), mediante la ecuación que se muestra a continuación. Para profundizar más sobre este método, se recomiendan las referencias bibliográficas Hald (1952a) [9] y Hald (1952b) [10]:

F(tj) ≈ rango mediano j-ésimo = ( 1 + F(0,5; m,n) ⋅(n – j + 1) / j )-1

donde: F(0,5; m,n) es la mediana de una F-Snedecor con m = 2(n – j + 1) y n = 2j grados de libertad, j es el orden del fallo, y n es el tamaño muestral.

Como se verá en el apartado siguiente, los programas estadísticos actuales (como MINITAB) son capaces de realizar los cálculos anteriores, automatizando así el proceso de construcción de estos gráficos de probabilidad.

Cuando se tengan ya representados todos los puntos (x,y) asociados a las observaciones, se deberá hallar la recta de regresión asociada, la cual corresponderá a la f.d. de la distribución elegida cuyos parámetros mejor se ajusten a las observaciones. Para ver si las observaciones pueden aproximarse bien por dicha distribución, habrá que analizar (gráficamente o mediante el estadístico Anderson-Darling) si los puntos representados se encuentran suficientemente próximos a la recta, prestando especial atención a los valores de los extremos.

f.d. Weibull, escala = 10 forma = 4

0,00

0,20

0,40

0,60

0,80

1,00

0 5 10 15

t

F(t)

f.d. Weibull linealizada, escala = 10 forma = 4

-9,0-7,0-5,0-3,0-1,01,03,0

0,00 0,50 1,00 1,50 2,00 2,50 3,00x

y



IDENTIFICACIÓN GRÁFICA DE LA DISTRIB. DE AJUSTE____________________

Ejemplo (identificación gráfica): se considerará aquí el caso de una compañía que fabrica cubiertas para motores, cubiertas que pueden estropearse rápidamente si se ven sometidas a temperaturas elevadas. El archivo Motores.mtw contiene los tiempos de fallo (en meses) de las cubiertas a dos temperaturas distintas.

La primera muestra (Tiemp80) consta de 50 cubiertas sometidas a 80º C; la segunda muestra (Tiemp100) abarca 40 cubiertas a 100º C. Algunas de las cubiertas que se empezaron a estudiar, o bien fallaron debido a causas distintas a la temperatura, o bien no continuaron en el estudio por motivos diversos y, por tanto, se desconoce el instante en que fallaron (observaciones censuradas a derecha).

En las columnas Comp80 y Comp100 se especifica si los tiempos obtenidos pertenecen a observaciones completas (1) o a observaciones censuradas (0).

Una vez introducidos los datos, seleccionamos Stat > Reliability/Survival > Distribution ID Plot-Right Cens... :

Se eligen las variables que contienen los tiempos de fallo, así como las columnas en las que se indica si ha habido o no censura (cada una de éstas se asociará a una variable según el orden de entrada):



Observar que una alternativa al uso de columnas indicadoras de censura sería fijar el tiempo que ha de transcurrir (o el número de observaciones que han de fallar) como indicador de censura (censura por tiempo o por fallos).

El programa ofrece una serie de opciones, como la de escoger entre los siguientes métodos no paramétricos para la obtención de los gráficos: Herd-Jonhson, Kaplan-Meier, y Kaplan-Meier modificado (ver el math-block Fiabilidad IV). Por defecto, en el caso de observaciones censuradas, MINITAB utiliza el método Kaplan-Meier modificado:

Si los puntos representados en el gráfico están suficientemente próximos a la recta, podremos dar por bueno el ajuste de las observaciones mediante la distribución teórica elegida (resulta conveniente prestar atención especial a los valores de los extremos). Como se observa en los gráficos siguientes, la distribución que mejor se ajusta a los datos es la lognormal (base e).

Por su parte, el estadístico Anderson-Darling nos da una medida de lo alejadas que se encuentran las observaciones de las recta que representa las función de distribución. Cuanto mejor sea el ajuste, tanto menor será dicho estadístico. En este caso vemos que el menor valor que toma el estadístico AD corresponde a la distribución lognormal (67,22 para la muestra a 80º C y 16,50 para la muestra a 100º C), lo que confirma que es esta distribución la que mejor se ajusta a las observaciones:

Weibull

67,64; 16,60

Lognormal base e

67,22; 16,50

Exponential

70,33; 18,19

Normal

67,73; 17,03

Anderson-Darling (adj)

Tiemp80Tiemp100

1

2 3

5

10

20304050607080909599

10 100

Weibull

Per

cent

1

510

20304050607080

95

99

10 100

Lognormal base e

Per

cent

1030506070

80

90

95

97

98

99

0 100 200 300 400

Exponential

Per

cent

1

510

20304050607080

95

99

0 50 100

Normal

Per

cent

DNI distribución tiempos de fallo de cubiertasML Estimates - Censoring Column in Comp80...Comp100



DESCRIPCIÓN GRÁFICA DE LOS DATOS________________________________

Una vez se haya tratado de ajustar los tiempos de fallo mediante alguna distribución conocida, será conveniente realizar una descripción gráfica de las observaciones. Si se ha logrado identificar la distribución de los tiempos de fallo, se optará por un enfoque paramétrico. Si, por el contrario, las observaciones no se ajustan a ninguna de las cuatro distribuciones propuestas (exponencial, Weibull, normal y lognormal), se optará por usar métodos no paramétricos.

El enfoque paramétrico incluye los siguientes gráficos: f.d.p., función de supervivencia, f.d. (linealizada), y tasa de fallo. La opción no paramétrica incluye un gráfico de la función de supervivencia (basado en Kaplan-Meier) y otro de la función tasa de fallo.

Ejemplo (descripción paramétrica): Siguiendo con el ejemplo anterior de las cubiertas, se utilizará la distribución lognormal (base e) para hacer una descripción completa de las variables que interesan:

Las cuatro gráficas anteriores describen la distribución de los tiempos de fallo de las cubiertas para dos niveles diferentes de temperatura. A partir de las mismas, es posible determinar, p.e., cuánto más probable resulta el que las cubiertas fallen si se encuentran sometidas a una temperatura de 100º C que si lo están a una de 80º C.

34/ 637/13

F/C

16,5067,22

AD*

0,73090,4862

Scale

3,62874,0927

Location

Tiemp100Tiemp80

Tiemp80Tiemp100

10010

99

9590

80706050403020

10 5

1

Lognormal base e Probability

Per

cent

2001000

1,0

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1

0,0

Survival Function

Pro

babi

lity

2001000

0,03

0,02

0,01

0,00

Hazard Function

Rat

e

2001000

0,02

0,01

0,00

Probability Density Function

Gráficas distribución de datosML Estimates - Censoring Column in Comp80...Comp100



Así, p.e., se observa (a partir del gráfico de supervivencia) que, tras 50 meses, sólo sobrevivirán (aproximadamente) un 30% de las cubiertas sometidas a 100º C, mientras que el porcentaje de supervivientes a los 50 meses sube hasta (aproximadamente) un 65% para las cubiertas sometidas a 80º C.

Ejemplo (descripción no paramétrica): Si se hubiese optado por un método no paramétrico (sin suponer que los datos pueden ajustarse por una determinada distribución teórica), los resultados hubiesen sido los siguientes:

A partir de las funciones de supervivencia se aprecia que hay una sustancial diferencia entre los tiempos de fallo de las cubiertas a 80º C y los de las cubiertas a 100º C: claramente, a una temperatura de 80º C la mayor parte de las cubiertas perdura durante más tiempo que a 100º C.

Tiemp80 Tiemp100

80706050403020100

1,00,90,80,70,60,50,40,30,20,1

Kaplan-Meier Survival Function

Prob

abilit

y

80706050403020100

0,2

0,1

0,0

Nonparametric Hazard Function

Rat

e

Gráficas distribución de datosKaplan-Meier Method - Censoring Column in Comp80...Comp100



Por su parte, la gráfica de las tasas de riesgo muestra dos funciones crecientes, siendo la de mayor pendiente la asociada a las cubiertas que soportan más temperatura.

Nuevamente, se aprecia cómo transcurridos 50 meses, solo sobrevivirán aprox. un 30% de las cubiertas sometidas a 100º C, mientras que este porcentaje llega al 65-70% para cubiertas a 80º C.

Notar, además, que aproximadamente un 50% de las cubiertas a 100º C habrán fallado entre los 35 y 40 meses. Por otro lado, en el caso de las cubiertas a 80º C, un 50% de las mismas sobrevivirá hasta los 55-60 meses.

BIBLIOGRAFÍA______________________________________________________ [1]. Cramer, H., Mathematical Methods of Statistics, Princeton University Press, Princeton, NJ,

1946. [2]. Davis, D.J., An Analysis of Some Failure Data, J. Am. Stat. Assoc., Vol. 47, p. 113, 1952. [3]. Dietrich, D., SIE 530 Engineering Statistics Lecture Notes, The University of Arizona, Tucson,

Arizona. [4]. Dudewicz, E.J., An Analysis of Some Failure Data, J. Am. Stat. Assoc., Vol. 47, p. 113, 1952. [5]. Dudewicz, E.J., and Mishra, Satya N., Modern Mathematical Statistics, John Wiley & Sons,

Inc., New York, 1988. [6]. Evans, Ralph A., The Lognormal Distribution is Not a Wearout Distribution, Reliability

Group Newsletter, IEEE, Inc., 345 East 47th St., New York, N.Y. 10017, p. 9, Vol. XV, Issue 1, January 1970.

[7]. Glasstone, S., Laidler, K. J., and Eyring, H. E., The Theory of Rate Processes, McGraw Hill,

NY, 1941. [8]. Hahn, Gerald J., and Shapiro, Samuel S., Statistical Models in Engineering, John Wiley &

Sons, Inc., New York, 355 pp., 1967. [9]. Hald, A., Statistical Theory with Engineering Applications, John Wiley & Sons, Inc., New

York, 783 pp., 1952. [10]. Hald, A., Statistical Tables and Formulas, John Wiley & Sons, Inc., New York, 97 pp., 1952. [11]. Hirose, Hideo, Maximum Likelihood Estimation in the 3-parameter Weibull Distribution - A

Look through the Generalized Extreme-value Distribution, IEEE Transactions on Dielectrics and Electrical Insulation, Vol. 3, No. 1, pp. 43-55, February 1996.

[12]. Johnson, Leonard G., The Median Ranks of Sample Values in their Population With an

Application to Certain Fatigue Studies, Industrial Mathematics, Vol. 2, 1951. [13]. Johnson, Leonard G., The Statistical Treatment of Fatigue Experiment, Elsevier Publishing

Company, New York, 144 pp., 1964. [14]. Kao, J.H.K., A New Life Quality Measure for Electron Tubes, IRE Transaction on Reliability and

Quality Control, PGRQC 13, pp. 15-22, July 1958.



[15]. Kapur, K.C., and Lamberson, L.R., Reliability in Engineering Design, John Wiley & Sons, Inc., New York, 586 pp., 1977.

[16]. Kececioglu, Dimitri, Reliability Engineering Handbook, Prentice Hall, Inc., New Jersey, Vol. 1,

1991. [17]. Kececioglu, Dimitri, Reliability & Life Testing Handbook, Prentice Hall, Inc., New Jersey, Vol.

1 and 2, 1993 and 1994. [18]. Leemis Lawrence M., Reliability - Probabilistic Models and Statistical Methods, Prentice

Hall, Inc., Englewood Cliffs, New Jersey, 1995. [19]. Lieblein, J., and Zelen, M., Statistical Investigation of the Fatigue Life of Deep-Groove Ball

Bearings, Journal of Research, National Bereau of Standards, Vol. 57, p. 273, 1956. [20]. Lloyd, David K., and Lipow Myron, Reliability: Management, Methods and Mathematics,

1962, Prentice Hall, Englewood Cliffs, New Jersey. [21]. Mann, Nancy R., Schafer, Ray. E., and Singpurwalla, Nozer D., Methods for Statistical

Analysis of Reliability and Life Data, John Wiley & Sons, Inc., New York, 1974. [22]. Meeker, William Q., and Escobar, Luis A., Statistical Methods for Reliability Data, John

Wiley & Sons, Inc., New York, 1998. [23]. Nelson, Wayne, Applied Life Data Analysis, John Wiley & Sons, Inc., New York, 1982. [24]. Nelson, Wayne, Accelerated Testing: Statistical Models, Test Plans and Data Analyses, John

Wiley & Sons, Inc., New York, 1990. [25]. Perry, J. N., Semiconductor Burn-in and Weibull Statistics, Semiconductor Reliability, Vol.

2, Engineering Publishers, Elizabeth, N.J., pp. 8-90, 1962. [26]. Procassini, A. A., and Romano, A., Transistor Reliability Estimates Improve with Weibull

Distribution Function, Motorola Military Products Division, Engineering Bulletin, Vol. 9, No. 2, pp. 16-18, 1961.

[27]. ReliaSoft Corporation, Life Data Analysis Reference, ReliaSoft Publishing, Tucson, AZ, 1997. [28]. Weibull, Waloddi, A Statistical Representation of Fatigue Failure in Solids, Transactions on

the Royal Institute of Technology, No. 27, Stockholm, 1949. [29]. Weibull, Wallodi, A Statistical Distribution Function of Wide Applicability, Journal of

Applied Mechanics, Vol. 18, pp. 293-297, 1951. [30]. Wingo, Dallas R., Solution of the Three-Parameter Weibull Equations by Constrained

Modified Quasilinearization (Progressively Censored Samples), IEEE Transactions on Reliability, Vol. R-22, No. 2, pp. 96-100, June 1973.

ENLACES___________________________________________________________ [W1] La página de Relia Soft contiene multitud de enlaces documentación y software

relacionados con la Fiabilidad de Sistemas. [W2] También de Relia Soft, la página Weibull.com es, sin duda, una de las principales fuentes de

información sobre Fiabilidad.

Fiab_2

Documents

Transcript of Fiab_2