Capitulo 14

download Capitulo 14

of 81

Transcript of Capitulo 14

&.gtesin lineal simpleCONTENIDO

g,mpRActIc.: ALLIANCE DATA SYSTEMS MoDELo pn ncRssrN r4.r LINEALSIMPLE Modelo regresin de y ecuacin regresin deEcuacin de regresin estimada

reesrAnfsrtce

Estimacin puntual Estimacin por intervalo Intervalo de confianza para el valor medio de y Intervalo de prediccin para un solo valor de v I4.7 SOLUCTNPOR COMPLTTADORAS

r4.2 rvrroooosMMosr4T

t4.B nNusts RESIDUAL: CONFIRMACINDELAS STJPOSICIONES DELMODELO Grfica de residualescontra .r Grfica de residualescontra ! Residuales estandarizados de probabilidad normal

t.i,,

DERESIDUALES:

ACrONESnrfplcasACIONES

...: :*

,,

. , . ,

.

i

w

lineolsimple Copdo 14 Regresin

',',, : ,

iirl

:., ,'

SnI,llf{

l4.l

lineolsimple Modelo regresin de

545

Sir Francis Galton ( I 822- I I ) fue el primero 19 en emplear los mtodos para cstudiar estadlsticos la rclacin entrcdos variables. Galton estabaintercsadoen estudiarla relacin entrela estaluradepae e (1857hijo. Karl Pearson 1936)awliz estarehcin pares depadrcen 1078 hijo.

las suelen basarse la relacinentredoso msvariables. en Por En la administracin, decisiones y puede permitira un gerpnobservar relacinentreel gastoen publicidad las ventas la ejemplo, a gastoen putratar de predecirlas ventascorrespondientes un determinado te de mercadotecnia de blicidad.O, una empresa serviciospblicospuedeemplearla relacinentrela temperatura las diaria y la demandade electricidadpara predecir la demandade electricidadconsiderando Algunasveces directivosse apoyan los diariasque seesperan messiguiente. el temperaturas en la Sin cuando posibletenerdaes la intuicinpaxajuzgar relacinentredosvariables. embargo, un tos, puedeemplearse procedimientoestadsticollamado anlisis de regresinpara obtener que una ecuacin indiquecul es la relacinentrelas vaiables. que a En la terminologa seemplea regresin, la variableque seva a predecirsele llama en variable dependiente. la variableo variables seusanparapredecir valor de la vaiable que A el Por se al el dependiente lesllamavariablesindependientes. ejemplo, analizar efectode los gascomolo quebusca gerente mercadotecnia predecir el de es las tos en publicidadsobrelas ventas, sern variabledependiente. la ventas, estoindicaquelas ventas En estecapltulose estudia tipo mssencillode anlisisde regresin el que interviene el en y y variauna variableindependiente una variabledependiente en el que la relacinentreestas bles es aproximada mediante una lnea recta.A estetipo de anlisisde regresin le conoce se lineal simple.Al anlisis regresin el queintervienen o msvariables de en dos comoregresn mltiple; el anlisisde regresin mltiple y los se independientes le llama anlisisde regresin en casos los que la relacines curvilneaseestudian los captulos15 y 16. en

@

Modelo de regresinlineal simpleArmand'sPizzaParlorsesunacadena restaurantes comidaitaliana.Susmejores de de ubicaciode Los creenque nessonlas que seencuentran cercade los campus las universidades. gerentes (que por restaurantes sedenotan y) estndirectamente relacionatrimestrales estos de las ventas (quesedenota es decir,en los restaurantes que de ); dascon el tamao la poblacinestudiantil grande generan que que se msventas en de campus tienenunapoblacin estudiantil estn cerca pequea. con estudiantil Empleando los restaurantes situados cercade campus unapoblacin el que cul es la relacinentrela varegresin, puedeobtener ecuacin muestre se una anlisisde y r. riabledependiente y la variabledependiente

Modelo de regrcsin y ecuocinde regresinArmand'sPizzaParlors, poblacinconstade todoslos resla En el ejemplode los restaurants de Armand. Paracadareslaurante la poblacin,hay un valor (poblacinestudiantil) taurantes y un correspondiente A valor y (ventastrimestrales). la ecuacincon que sedescribecmo serelacionay conx y enla que se da un trmino parael error, se le llama modelo de regresin El lineal simple. en siguiente el modeloque seemplea la regresin es

STf,{PT,E MODEI,oDERrcRE8TN TUE.AL y =fit*prxle

llr.Nl

foy f t se conocen como los parmetrosdel modelo, y e (la letra gnega psiln) es una variable aleatana que s conoce como frmino del error. El trmino del error da cuenta de la variabilidad de y que no puede ser explicada pr la relacin lineal entre x y y.

546

lineol 14 Coptulo Regresin simple de Armand'spuedeversetambincomounacoleccin subde La poblacin los restaurantes est poblaciones, paracadauno de los valoresde.r. Por ejemplo,una subpoblacin formada una consta todoslos de otra de universitaios 8000estudiantes; subpoblacin por todoslos campus etc. de universitarios 9000 estudiantes; cercade los campus Armand'slocalizados restaurantes y y. de de hay Paracadasubpoblacin unadistribucin valores As, hay unadistribucin valores hay de cercade los campus 8000estudiantes; otra localizados quecorresponde los restaurantes a de cercade los campus ubicados distribucinde valoresy que corespondea los restaurantes y de distribuciones valores tienesuproCada y 9000estudiantes, assucesivamente. unade estas de que la A pia mediao valor esperado. la ecuacin describe relacinentreel valor esperado y, de es que sedenota E(x),y sele llama ecuacinde regresinLa siguiente la ecuacin regrelineal simple. sinparala regresin

LINEAL SIMPLE ECUACINDE REGRESIN

E(y\= Fo+ fr

lr4.2l

de lineal simpleesunalnearecta;Boesla interseccin la de la La grficade ecuacin regresin de y con de regresin el eje !, flt es la pendiente E(y) es la mediao valor esperado y para rerta un valor dado de . Larecia de regresin de rectas regresin. de ejemplos posibles En la figura 14.1sepresentan con lz grrficaAindica que el valor medio de y estrelacionadopositivamente x. La rccta de de con negativamente r, regresindela grficaB indica que el valor medio de y estrelacionado de de a d" valoresmenores E(i corresponden valoresmayores . La rectade regresin la grficon.r; es decir,el valor el ca C muestra casoen el que el valor mediode y no estrelacionado mediode y esel mismoparatodoslos valoresde x.

Ecuqcinde regresin estimodqla poblacionales Y r, sepodraemplear ecualos Si seconocieran valoresde los parmetros Bo en cin(I4.2) paracalcularel valor mediode y paraun valor dadode x. Sin embargo, la prcti y estimarlosusandodatos ca no se conocenlos valores de estos parmetros es necesario (que se denotan de boy b) como estimaciones muestrales Se muestrales. calculanestadsticos boY bt por los de en poblacionales y B,. Sustituyendo la ecuacin regresin los parmetros o

EN FIGURAI4.I EJEMPLOS LNEAS DE REGRESIN LAREGRESINLINEAL STMPLE DEGrlcaA: Relcfn llneal poeitiva GtdflcB Relactnllncl negatlva Gr{fca C: No bay relacln

Interseccin Lapendiente,

lnterseccbn Po

14.1 Modelode regresin lineolsimple

547

valores de los estadsticosmuestraleso y B,, se obtiene la ecuacin de regresin estimada La ecuacin de regresin estimada de la regresin lineal simple se da a continuacin.

ECUACINDE REGRESIN LN'{EALSIMPLEESTIMADA j:bo*b'x

(r4.31

A la grfica de la ecuacin de regresin simple estimada se le llama recta de regresin estimoda; bo es la interseccin con el eje y y b, es la pendiente. En la seccin siguiente se muestra el uso del mtodo de mnimos cuadradospara calcular los valores de boy brparala ecuacin de regresin estimada. En general, ! es el estimador puntual de (y), el valor medio de las y para un valor dado de . Por lo tanto, para estimar la media o el valor esperado de las ventas trimestrales de todos los restaurantes situados cerca de los campus de l0 000 estudiantes, Armad's tendr que sustituir en la ecuacin (14.3) x por 10 000. pero, en algunos casos, a Armand's lo que le interesar ser predecir las ventas de un determinado restaurante. Por ejemplo, supngase que Armand's desee predecir las ventas trimestrales del restaurante que se encuentra cerca de Talbot Collage, una escuelade l0 000 estudiantes.Resulta que la mejor estimacin de la y que conesponde a un determinado valor de x es tambin la proporcionada por !. Por lo tanto, para predecir las ventas trimestralesdel restauranteubicado cerca de Talbot Collage, Armad's tambin sustituir la de la ecuacin(14.3) por 10 000. Como el valor de ! proporciona tanto una estimacin puntual de E(x) para un valor dado de .r como una estimacin puntual de un solo valor de y para un valor dado de , a j se le llamar simplemente valor estimado de y. En la figura 14.2 se presenten forma resumida el proceso de estimacin en la regresin lineal simple.

FIGURAI4.2

PROCESO DE ESTIMACIN EN LA REGRESIN LINEAL SIMPLE

b estimacin de flo! ft es un proceso estadstico muy parecido a la estimacin de p que se vio en el capftulo 7. Boy Bt son los parmetros d inters que son descotncidos, y boy b, son los estadfsticos mustrales qu se usan para estitrar los parmetros.

Modelo de regresin f = F o + P r x+ C Ecuacinde rcgresin

oY**:y*tt ,t

E(y) x Bo+prxParmetro descoqoci&c

'z

Yz

*,rJ'""J,.k,*

Ecuocin regrcri& dc ert$id

I * bo*brx&ta|frtisos rnsstc

548

l4 Coptulo

lineolsimple Regresin

1. El anlisis de regresin no puede entenderse 2. La ecuacinde regresin en la regresin lineal simple es E(y) : fo* ptx. En libros ms una recomo un procedimientopara establecer avanzadossobre anlisis de regresin se suels y efectoentre las variables.Eslacin de causa escribir la ecuacin de regresin como te procedimiento slo indica cmo o en qu E(ylx): fro+ fl enfatizandoasf que lo que una medidalas variablesestinrelacionadas con proporciona esta ecuacin es el valor medio de acercade una relacincausa otra. Conclusiones las y para un valor dado de . de y efectodebenbasarse los conocimientos en en los especialistas la aplicacinde que se trate,

Mtodo de mnimos cuadradosEn Ia regresin lineal simple, cada observacn consta de dos valores: uno de la variable independiente y otro de Ia variable dependiente.

parahaEl mtodo de mnimos cuadrados esun mtodoen el que seusanlos datosmuestrales supngailustrarel mtodode mnimoscuadrados, Para estimada. de llar la ecuacin regresin Armand's Pizza Padorsubicados se que se recolectandatosde una muestrade 10 restaurantes x, i i o el restaurantede la muestra, es Parala observacin universitarios. todoscercade campus (en miles) en el campusy y, son las ventastrimestrales el tamaode la poblacinde estudiantes de los (en miles de dlares). la tabla 14.1sepresentan valoresde xty y, en estamuesEa l0 En que.rl = 2 y yt : 58, estcercade un Cam1, Como se ve, el restaurante parael restaurantes. 2, son y pus de 2[ estudiantes susventastrimestrales de $58 000. El resauranc parael que y susventastrimestrales son xz:6y lz: 105,estcercade un campusde 6000 estudiantes 10, ventas resaurante el cual estcerdel a de $105000. El valor mayores el que corresponde y son trimestrales de $202000. de ca de un campus 26 000 estudiantes susventas de los datosde la tabla l4.LLa poblacin esde de La figura 14.3esel diagrama dispersin y las ventas en el eje vertical.[,os diagramas trimestrales se tudiantes indicaen el eje horizontal la se colocando variableindependiente en el de de dispersinparael anlisis regresin trrzan permie y eje horizontal y la variable dependiente en el eje vertical. El diagramade dispersin los observargrficamente datosy obtenerconclusionesacetcadela relacinentrelas variables. papreliminarse puedgobtener la figura 14.3?Las ventastrimestrales de Quconclusin quela poblacin estudiantes mayor.Adems, en de es en cercade campus los recensermayores y la poblacinde estudiantes las ventas estosdatosseobseryaque la relacinentreel tamaode trimestralesparecepoder aproximarsemedianteuna lnea recta; en efecto, se observaque hay TABTA I4.I POBLACINDE ESTUDIANTESY VENTASTRIMESTRALES ARMAND'S PZZAPARLORS EN 10 RES'TAURANTES

RecauronteI 1, 3 t 5 6 7 I I lo

eotuAhnf(rrtles), 6 I

de Poblscln

YentmHnectrh (mllot)J 5E t05 88 ltE ll7 l3? 157 l@ 149 2

Armand's

s

t2 16 N' 2S 22 26

cuodrodos de 14.2 lvietodo mnimos

549

EN SE I4.3 DIAGRAMA DE DISPERSIN EL QT.JE MI.JESTRALAPOBLACIN TIGURA DE Y LAS VENTAS TRTMESTRALES ARMAND'SPITZA DE ESTUDIANTES PARLORS

224 2W 6 t8o ) g 10 g l$n

-g E r20E .Ea

100

r 8 0# 6 0

8

l0t2t4 16r82422

Fs|ldn dGdrdlnhc blhs)

la trimeeunarelacinlineal positiva en8er y y. Por tanto,pararepresentar relacinentrevenas neal simple. Decidido esse trales y la poblacinde estudiantes, elige el modelo de regresin de to, la tareasiguientees usarlos datosmuesales la tabla l4.l paradetrminarlos valoreede i, boy 4 en la ecuacinde regresinlineal simple. Parael resauranela ecuasinde rcgresin simple estimadaes 9t= bol brx, donde (en j,, : valor estimadode las ventasSimestrales miles de dlares)dol restsuranrc i de bo= inerseccin la rectde regresincon el eje y br = pendientede la rectade regresinX

(r4.41

= amao la poblacinde estudiantes miles) del resaurant (en i de

(reales)y !, denotavenas meestimadas i, Como parael restaurante y, denotaventsobsrvadas de diantela ecuacin(14.4), paracadauno de los restaurantes la muestrahabrun valor de veny, tas observadas y un valor de ventas esmadas Pm que la rcta de regresinestimada !,. y proporcioneun buenajustea los datos,las diferenciasene los valoresobservados los valores debenserpequeas. estimados paraobener valoresde los se En el mtodode mfnimoscuadrados usanlos datosmuestrales (diferencias)enhe los vaboy 4 que minimicenla sumade los cuadradosde las desviaciones y, de de lores observados la variable dependiente y los valoresestimados la variabledependienes te. El criterio que se empleaen el mtodode mnimos cuadrados el de la expresin(14.5).

550

Coptulo Regrerin simple 14 lineol

CRITBRIO DE Mfi{IMOS CUADRADOS CarlFriedrichGauss (1777-1855)fue pmquien pusoel mtodo mlnimos decuadrados.

mint(y, donde

-

!)2

(t4.51

de en i = valor observado la variabtedependiente la observacin = valor estimadode la variableindependiente la observacin en i i (vase parademostrar apndice 14.1)que los valores o Sepuedeusarclculos diferenciales de (14.5)sepueden (14.)y (I4,7). y b, qaerrnnrrrnrzaexpresin usando ecuaciones las la encontrar

CON EL EIE YDE LA ECUACIN PENDIENTE INTERSECCIN E DE REGRESINESTh,IADA'IAlcalcularbrconwu calcutdora,enbsclcuintermedios tlelos deben tanlos clfrol varse slgnificattvasconuseaposble. recomienda Se llevar por lo mcnos Inlm cifras dOnde sisni'ficarivas \r/- * =\/-. &(h ' Dt = -n(r7fr- rylL1l bo= i * bfi --r\ {l*.l {ll'71

ri = valor de la variable independiente en la observacin i y, = velc de lo variable depcndieneon la observacin i -x= nrdiadala variable irdependiento

la dependienrc i = modiade variable n r nmpro deob*ewaiones fotsl

para obtenerla ecsacinde regresin los En b tabla 14.2 ge presentan clculos necesarios estimadaen el ejemplode Armand's PizzaParlors.Como la muoctraes de 10 restaurantps, tene(14.6'ly (J4.7)se necesitan y j, geempief mos 10 observacions. Dadoque en las ecuaciones zapor calcular j. .y

r:i=i=14lv, 13 ' = -n= l _ = 1 3 0 0 (14.6)y Oa.1\ y la informacin delztabll 14.2,secalculala pendiente Usandolas ecuacione; y la nterw*in con el ejey de la *uaci6n de regresinde Annand's Pizz,a Parlom.ta pendiene (b) * calculacomo sigue.

2x,

UA

'Oro f6rmlo cohohr b, er de , _Ex,y,-(2x,2y)/n ut4'(x,f/" poro dukr Eib frrrrmd6 lo ccocin cnndoe qnda rm colculodoro ll4., 3rd6 rcoomcrdorse ar.

cuodrqdos 14.2 Mtodo mnimos de TABTA I4.2 ECUACINDE REGRESIN ESTIMADAPARAARMAND'S PVLA OBTENIDA POREL MTODODE MIMOS CUADRADOS PARLORS

55r

ResturnteiI 2 3 4 5 6 7 I g 10 Totales

8

}l

2 6 I I t2 t6 ?0 N 22 ?6 14CI Eq

58 105

s8118

rr7

137 t51 169 149

?frzt300 ty,

Jr*i *t? *8 *6 *6 -2 7 6 6 I T2

Jr-J -72 *25 *42 -t2 *13 ; 39 19 72

fti-r)(Jr-D81 200 252 72 26 14 t2 234 152 864 2W

ft,-rft4 & 36 36 4 4 36 36

tt4 568I(r, - if

u

l(*rXr*i)

bt:

z - lx-x)\l-l) >(\_rf

2840568 - 5 con La interseccin el eje y (o)secalculacomosigue. bo: ! - bri = 130- 5(14) =0 es de estimada Por lo tanto,la ecuacin regresin

!=0+5graficada sobreel diagrama dispersin. de estaecuacin En la figura 14.4semuestre (br = 5) espositiva,lo queimplice que a pendiente la ecuacin regtesin de estimada La de aumentan ventas. conclulas Se de el de medidaque aumenta tamao la poblacin estudiantes, (basndose las ventasdadasen miles de $ y en el tamalode la poblacinde estudianes ye en en conesponde un aua miles) que un aumentode 1000en el tamaode la poblacinde estudiantes que las ventastrimestales aumenlen mentoesperado $5000en las ventas;es decir, seespera de por cadaaumentode un estudiante. $5 Si se consideraque la ecuacinde regresinestimadaobtenidapor el mtodode mfnimos razonable usarestaecuacin la cuadrados describeadecuadamente relacinener y y, parecer paraestimarel valor de y paraun valor dadode x. Por ejemplo,si se quiestimada de regresin ubicadocercade un campusde 16 000 sieranpedecir las ventastrimestralesde un restaurante calculara se estudiantes, i:60 + 5(16): 140

Debe tense muchocuidado al usarh ecwcin de rcgrcsinestinufu pam lwcer prcdiccienesuem del rango de valorcsde la variable indepetdientc,ya quefuero dc csemngo no puedeasegurarse esta que rclacin seavlida.

paraesterestaurante pronosticadas serande $140000. En De maneraquelas ventastrimestrales seccinsiguientese vern los mtodospara evaluarel uso correctode la ecuacinde regrela y sinparahacerestimaciones predicciones.

552

lineolsimple 14 Copitulo Regresin I4.4 GRAFICADE LAECUACIN DE REGRESINESTTMADADEARMAND'S FIGURA PVZAPARLORS: i:60 t 5x

220 200 {} 180 { ,E 160 H 140 I 120

#E

E I& eI

F 10080 60 40

)coa el ejey bo* 60

20 8 2 1 0 t 2 1 4 1 6 1 8 ? f r 2 2 /26

(mcr) Fobldn decstudrntcs

El mtodo de mfnimos cuadradosproporciona na ecuacin de regresin estimada que minimiza la sumade los cuadradosde las desviacionesentre los valores observadosde la variable dependientey, y los valores estimadosde la variable dependiente!,. El criterio de mfnimos cuadradospermite obtenerla

otro ecvacin mejorajuse. seempleara critede Si las rio, comominimizarla sumade desviaciones absoluas enteyi y i, rc obtendrfauna ecuacin Enla pr&ttcael mtodo mfnimos de cuadiferente, msusado. drados el mtodo es

Mrodo

outo@

1. Dadas las siguientescinco observacionesde las variableex y y.

?.

b.

datos. Trace el diagrama de dispersin correspondientea esos indica el diagrama de dispersin del inciso a) respecto a la relacin entre las dos vaQu riables?

cuodrodos 14.2 Modo de mnimos c. d. e.

553

Trate de aproximar la relacin entre r y y trazando una lfnea recta que pase a travs de los puntos de los datos. (1a.6) y (14.7) calcule boy brpara obtenerla ecuacinde regfesinesCon las ecuaciones timada. Use la ecuacin de regresin estimadapara predecir el valor de y cuandor = 4.

2. Dadas las siguientescinco observacionesde las variables x y y.

a. b. c. d. e.

Trace, con estos datos, el diagrama de dispersin. Qu indica el diagrama de dispersin del inciso a) respecto a la relacin enfe las dos variables? Trate de aproximr la relacin entre.r y y trazando una llnea recta a travs de los puntos de los datos. (1a.0 y (14.7) calculeboy by,paraobtenerla ecuacinde regresinesCon las ecuaciones timada. Use la ecuacin de regresin estimadapara predecir el valor de y cuando r = 4.

siguientessobreestasdos vaiablesobtenidasen un estudiode regesin. 3. Dadaslas observaciones

a. Con estosdatos trace el diagrama de dispersin. b. Obtenga la ecuacin de regresin estimadacorrespondientea estos datos. c . Use la ecuacin de regresin estimadapara predecir el valor de y cuando r = 4.

Aplicociones

Orto@

4. Los datos siguientes son estaturasy pesosde nadadoras.

a. b. c. d. e.

Trace el diagrama de dispenin de estos datos usando la estatura como variable independiente. Qu indica el diagrama de dispersin del inciso a) rcspecto a la rclacin ene las dos variables? Trate de aproximar la relacin enEe estaturay peso trazando una lfnea recta s travs de los puntos de los datos. Obtenga la ecuacin de regresin estimadacalculando bol bt Si la estaturade una nadadoraes 63 pulgadas, cul ser su peso estimado?

5. Los adelantostecnolgicos han hechoposible fabricar botes inflables. Estos botes de goma inflables, que puedenenrollarse forman& un paqueteno nayor que una bolsa de golf' tienen tamalo suficiente para dos pasajeroscon su equipo de excursionismo. La rcvista Canoe & Kayac ptob6 dfas. Uno de los los botes de nueve fabricantespara ver su funcionamiento en un rccorrido de trres criterios de evaluacin fue su capacidadpar4 equipaje que se evalu utilizando una escalade 4 puntos, siendo I la puntuacin ms baja y 4la punhracin ms alta. Los datos siguientesmues. tran la evaluacin que obtuvieron rcspccto a capacidadpara equipaje y los precios de los botes (Canoe Kayak, marzo 2003).

554

lineolsimple Coptulo 14 Regresin

Bots st4

W'o

Orinoco Outside Pro Explorer 380X RiverXK2 Sea Tiger Maverik tr 100 Strlite Ff,tPack Cst

Caprdltrd pnrnequlpqfe 4 4 4 3 2.5 4 3 2 3

Predb{$} tt95 99 r890 795 600 1995 1205 JS3 1048

Trace el diagrama de dispersin de estosdatos empleandola capacidadpara equipaje como variable independiente. Qu indica el diagrama de dispersin del inciso a) respecto a la relacin entre capacidad para equipajey precio? c. A havs de los puntos de los datos trace una llnea recta para aproximar la relacin lineal entre capacidadpara equipaje y precio. d. Utilice el mtodo de mnimos cuadradospara obtener la ecuacin de regresin estimada. e. D una interpretacin de la pendiente de la ecuacin de regresin estimada. paraequif. Diga cul serel precio de un bote que tenga3 en la evaluacinde su capacidad paje. 6. Wageweb realiza estudios sobre datos salarialesy presentaresrlmenesde stos en su sitio de la Red. Basndoseen datos salarialesdesdeel I de octubre de 2002 Wagewebpublic que el salario anual promedio de los vicepresidentes ventasera $142 lll con una gratificacin anual prode que los datossiguientes 13 medio de $15 432 (Wageweb.com, de mazode 2003). Suponga sean una muestrade salariosy bonos anualesde 10 vicepresidentesde ventas.Los datos se dan en miles de dlares.

Viceprccldente 2 36 I I

I

VPSlary

,3

$alrrlo 135 115 146 16? 165 116 98 136 163 1t9

Grtffiseln

l2 t4 16 t9 22

u

I T7 18 ll

de con datosiomando comovariableindependiente lor a. Traceun diagrama dispersin estos salarios. del b. Qu indicael diagrama dispersin incisoa) acerca la relacinentresalarioy grade de tificacin? para la de estimada. c. Useel mtodode mfnimoscuadrados obtcner ecuacin regresin de de estimada. d. D unainterpretacin la ecuacin regresin que e. Culserla gratificacin un vicepresidente tengaun salarioanualde $120000? de que ms 7, Esperarfa los automviles confiables fteranlos mscarcs? Consumcr Reports evalu se 15delos mejores automviles sedn. confiabilidad evaluconunaescala 5 puntos: La de ma(4) (5). (2), (3), la (1),regular buena muybuena y excelente Lor preciory la evaluacin sobre la (Consumer de se en Reports, febreconfiabilidad estos15automviles presents l tbla sigaiente ro de2004).

cuodrodos ly'..2 J\odo de mnimos

555

Crra

Mnrrry modolo AcuraTL BMW330i IS3) Lexus kxus 85330 C320 Mercedes-Benz LincolntS Pemium(V6) AudiA43.0Qgatno CTS Cadillac Mnxims3.5SE Nisss Infini I35 Sarb9-3Aero Infini G35 IagsrX-Typc3.0 9-i Saab Arc t/olvo5602,57

Conabllldad

4 3 5 5 1 3 2 1 4 5 3 4 1 3 3

Prcdo( 33 t50 40570 35 105

3sr744223il. 38225 3?@5 3?695 34390 t3 &45 36910

uw5

t7 95 36955 33890

Trace un diagrama de dispersin con estos datos tomando como variable independientelas evaluacionesde confiabilidad. b. D la ecuacin de regresin obtenida por el mtodo de mlnimos cuadrados. c. De acuerdo con este anlisis, cree usted que los automviles ms confiables sean ms caos? d. Estime el precio de un automvil sedncuya evaluacin de confiabilidad sea4. Las bicicletas de montaa que actualmentecuestanmenos de $10) tienen muchos de los com' ponentesde alt calidad que hastahacepoco slo tenfan los modelos de alta calidad. Ho incluso modelos de menosde $1000 suelenofipcer suspensinflexible, pedalesclipless y cuadro muy bien diseado.Una cuestin interesantees si precios ms altos correspondena mayor facidad de manejo, medida a travs del agane lateral de la bicicleta. Para medir el agarrelateral, Outside Magazine emple una escala de evaluacin del I al 5, en la que el I correspondfaa mala y 5 a promedio. A continuacin se presentael agarre lateral y los precios de l0 bicicletas de montaa probadas por Outside Magazine (Outside Magazine Buyer's Guide' 200l) a,

Fabricnte y modelo

funntlrterrlI I

l$ri4Mt... Marin BearValley FemininaGTAvalanche2.0lltnBlkec

io*lrL"O" sout*SchwinnMoab 2 GiantXTICNRS3 Ccnesisrcrs FisherParagon JsmisEfokotlrc TrekFrdgO 5p*i"li* Sn*pumper M4

2 I 3 4 4 3 5 4

hdo(0) 600 649 799 89e 950 Ir00 It49

rgn

1550 l6?5

el comovariableindependiente Traceun diagr*made dispenincon estosdatostomando aganelareral. Expmtlscarosseande msfcil manejo? indicrestosdatosque los modelos Pareoen que. por obtenida el mtodode mfnimoscuadrados. estimada de c. D la ecuacin rcgresin cuyoaganelateraltengaunaevade montaa de d. Culesel precioestimado unabicicleta luacinde 4?

55

14 lineolsimple Copltulo Regresin y sobreventas anuales aosdeexperiencia. recolect datossiguientes los de 9. Un gerente ventas

Yendedor I

Acdc erper{cndr I 4 6 IS 9 1 t

Yentsmnrlcs (nlhsdcS) 80

2 3

3 4

fail.r

4 5 r 6i 1 t i

v2 tu2103 ltl l19 t23 tt7 136

n

r0

l 0 0 l

13

a. b. c.

Elabore un diagrama de dispersin con estosdatos, en el que la variable independientesean los aos de experiencia. D la ecuacin de regresin estimadaque puede emplearsepara predecir las ventas anuales cuando se conocen los aos de experiencia. Use la ecuacin de regresin estimada para pronostica las ventas anualesde un vendedor de 9 aos de experiencia.

10. Bergansof Norway ha estadofabricando equipo para excursionismo desde1908.En los datosque se presentanen la tabla siguiente se da la temperatura("F) y el precio ($) de I I modelos de sacos Gear Guide) de dormir fabricados por Bergans (Backpacker 2OO6

Drod+oRmger3-Seaeonn R.mer Sfing R,mg*Wintcr Roodane 3-Scasons Rodane$ummcr RmdanWfurfsr $cqialce $now $onjn SenJr Zoro $upcrLight Tght&Light

ftmnorrtnr:a 12 u 3l3 38 4 5 l5

Podo 3r9 289 3E9239 149 289 359 259 229 t29 t99

SL.plngBa.

25 45

x

.

datos, el quela variableindependiente la en sea con de a. Traceun diagrama dispersin estos (oF). temperatura a de b. Qu indicael diagrama dispenindel incisoa) respecto la relacinentretemperatura y precio? para la de estimada. c. Useel mtodode mfnimoscuadrados obtener ecuacin regrecin ("F) cul serel preciode un sacode dormir si el fndicede temperatura e 20. d. Prediga grandes reasos menos ftecuentet, tll sabr los son es en 11. Aunqueactualmente los aeropuertos que Ademds, suwelo sl a es en quaeropuertos mtispmbable le eciren perdera uno susplanes. en es a aeropuerto el quetienequehacerun Easbordo, llegaconretraso un determinado cul la hacerasfel tasbordo?En la tabl siguiente probabilidad queseretrase saliday quepueda la de y rehasadas durante mesdeagosto 13aeropuerel en de el semuestra porcentaje llegadas salidas 2.4 tos (Ensiness febrerc202).

14.2 ^,trcdo mnimos de cuodrodos

557

Aeropnerto Atlanta Charlotte Chicago Cincinnati Dallas Denver Detnoit Houston Minnerpolis Phoenix Pitsbrgh saltLakc ciry St. Louis

Llcgrdas retraeades (%')

Sslds rrtrsds (%,

W'oXrport

24 20 30 20 20 23 IE 2A 1E 2l 25 IEl

22 ?n 29 l9 22 23 l9 l6 l8 22 22 t7 16

a. b. c. d. e.

Trace un diagrama de dispersin con estos datos, en el que la variable independientesean las llegadas retrasadas. Qu indica el diagrama de dispersin del inciso a) respecto a la relacin entre llegadas rehasadasy salidas retrasadas? Use el mtodo de mfnimos cuadradospara obtener la ecuacin de regresin estimada. Cmo se debe interpretar la pendiente de la ecuacin de regresin estimada? Suponga que en el aeropuerto de Filadelfia hubo 22% de llegadas retrasadas.Cul es el porcentaje estimado de salidas retrasadas?

12. Una moto acutica personal (personal watercraft, PWC) es una embarcacin a motor dentro de borda diseadapara ser conducida por una persona sentada,de pie o arrodillada. Al principio de los aos 80, Kawasaki Motors Corp. USA introdujo la moto acutica JET SKI@,h primera moto acutica comercial. Hoy jet s/cise usa como trmino genrico para motos acuticaspersonales. En la tabla siguiente se dan pesos (redondeadosa la decenade libra ms cercana)y precios (redondeados los 50 dlaresms cercanos)de 10 motos acuticaspersonalesde tres plazas a (wwwjetskinews.com,2006).

Fabrlcrneymodelo HondaAquaThxF-I2 HondrAquaTraxF-l2X HordaAquaTbaxF-l2XGP$cupe Ituwslri-STl(-l2FJenki YamhaE(Cruisr\Yvennner

Peso0b) 750 790 800 7N E30

Peclo(O) 9500 l0i00 11200 E Sm lOm

f f) =JId

.

YamslnFxHighontputWaverunner Yamsh Wsvenrnner Fr( YamahYXll0Dcluxolf,rverunner Yamrhs VXllO Sport Wavenrnner YmhXUfl200$fqvennner

770 830 72O 72fi ?80

l0m0 9 300 7 7W 7 00O E500

a. b. c. d. e.

Trace el diagrama de dispenin correspondientea estosdatos, empleandoel peso como variable independiente. Qu indica el diagrama de dispersin del inciso a) respectoa la relacin entre peso y precio? Use el mtodo de mlnimos cuadradospara obtener la ecuacin de regresin estimada. Indique cul ser el precio de una moto acutica de tres plazas cuyo peso sea750 libras. I Honda Aqua Trax F-12 pesa 750 libras y su precio es $95). No deberfa ser el precio pronosticado en ql inciso d) tambin de $950?

558

lineolsimple 14 Regresin Coptulo LaJetski Kawasaki SX-R 800 tiene asientopara una personay pesa 35Olibras. Creeusfed que la ecuacin de regresin estimada obtenida en eI inciso c) deba emplearsepara predecir su precio? 13. Parala Direccin generalde impuestosinternos de EstadosUnidos el que las deduccionesgezcan razonablesdependedel ingreso bruto ajustado del contribuyente. Dedrccion$ grandc qu comprendendeduccionespor donacionesde caridad o por atencin mdica son ms probablesen contribuyentes que tengan un ingreso bruto ajustado grande. Si las deduccionesd un contribu. yente son mayores que las correspondientesa un determinado nivel de ingresos, aurnentanlas posibilidades de que se le realice una auditora. f.

(dlc dc l) Ingrcsobruto qiuctado 22 32 4E 65 85 r20

?7

Mmforrmlcdr hdqlud:r{dreS} . 9.6 9.

to.t r t.l rl.5 t7i 255

a. b. c.

Trace un diagrama de dispersin con estosdatos empleandocomo vuiable independienteel ingreso bruto ajustado. Use el mtodo de mnimos cuadradospara obtener la wurcin & rcgre*;ittestimada Si el ingreso bruto ajustado de un contribuyente es $52 5, estirne el rnonto razonable de una deducciones.Si el contribuyente tiene deduccionespt $?I 4, er;tn1uixfrcada auditorla? Explique.

14. Los salariosiniciales de contadoresy auditoresen Rochester,Nueva Yuk, corrsporden a los de muchos ciudadanosde Estados Unidos. En la tabla siguienre s presntansatrios iniciales (en miles de dlares) y el lndice del costo de vida en Rochestery en otrfi$eve zonasmetropolitanas(Democrat and Chronicle, I de septiembre de2OU2).

8al!rlca

-{ca mctropomtm OklahomaCity Tunpa/St. Peterstrurg/Clcarw*er Indianapolis Buffalo/NiagaraFalh Atlnta Rochester Sacrarneirto nakigh/Durhmt/Chopet Hitl $an Diego llonolslu

fuc82.# 79.W

gffr0lIr|$

n9

MS

5r,53 4t,K ts.ls lfr,85 2r,fi t .9, ,.t2 0.51

n4 tt.7 n.l

15.6

n.7

?.7 t7.t

x.t

Elabore un diagrama de dispersin or stos daos emplemdo como variable independiente el ndice del costo de vida. Obtenga la ecuacin de regresin paatelacionr elfndcc del costo de vida con el laio inicial. Estime el salario inicial en vmt zcmarrcnqalitrina en la que el lndice del costo de vida es 50.

14.3 Coeficiente determinocin de

559

h.r) Coeficiente determinacin deEn el ejemplo de Armand Pizza Parlors para aproximar la relacin lineal entre el tamao de la poblacin de estudiantes.ry las ventas trimestrales y se obtuvo la ecuacin de regresin estimada ! = 60 + 5. Ahora la pregunta es: qu tan bien se ajusta a los datos la ecuacin de regresin estimada?En esta seccin se muestra que una medida de la bondad de ajuste de la ecuacin de regresin estimada (lo bien que se ajusta la ecuacin a los datos) es el coeficiente de determinacin. A la diferencia que existe, en la observacin i, entre el valor observadode la variable dependiente y,, y el valor estimado de la variable dependiente!,, se le llama residual i. El residual i representael error que existe al usar 9 pa estimar y,. Por lo tanto, para la observacin i, el residual es h - j. La suma de los cuadradosde estosresidualeso errores es la cantidad que se minimiza empleando el mtodo de los mnimos cuadrados.Esta cantidad, tambin conocida como suma de cuadrados debida al error se denota por SCE. SIJMA DE CUADRADOS DEBIDA AL ERROR

SCE*X(y*,)2

(t4.81

paraestide estimada El valor de SCEes una medidadel error al utilizar la ecuacin regresin en de mar los valoresde la variabledependiente los elementos la muestra. paracalcularla sumade cuadralos En la tabla 14.3semuestran clculosque serequieren Por dosdebidaal erroren el ejemplodeArmand'sPizzaParlors. ejemplo,los valoresde las vaparaldel y restaurante sonr, = 2 y lt = 58. El valor estimado I riablesindependiente dependiente paralas ventas del 1 de estimada trimestrales restaurante obtenidocon la ecuacin regresin es l, i, : 60 + 5(2) : 70. Por lo tanto, para el restaurante el error al usar ir para estimary, (-12)' - 144,aparece la ltima al en es},r - !, : 58 - 70 : -l2.El enor elevado cuadrado, de los de columna la tabla 14.3.Despus calculary elevaral cuadrado residuales cadauno de de y que se los restaurantes la muestra, suman seobtiene SCE : 1530.Porlo tanto,SCE : 1530 de de estimada : 60 * 5r parapredecir mide el effor que existeal utilizar la ecuapin regresin i las ventas. que de sin Ahora supngase se pide una estimacin las ventastrimestrales sabercul es el de Sin de tamaode la poblacin estudiantes. tenerconocimiento ningunaotra variablerelaciose la comounaestimacin lasvende nadaconlas ventas trimestales, empleara mediamuestral TABIAI4.3 ARMAND'S PIZZA PARLORS CLCULO DE SCEEN EL EJEMPLO

5,'c poblrcldu nFtsuTFts, drccdlmtuFI I 2 4 , '6 7 I

Vnr*s

T

*1f-o 'li

Prstrooffdlt fqfl+fr ,lto

h*h*12 l$ *ls t ;t *3 *3

Frtor

Erof lsudmdo

(}r-rfr2ull*

1,|4

t0

s

H

ii

iii ,#

,ffi l$140 160

itr

*2t t?

s

,24 I I I 8l l4l 144

sCE*ffi

s0

l4 Coptulo

lineol Regresin simple

IABIA 14.4 CLCULO DE LA SUMA TOTAL DE CUADRADOSEN EL EIEMPLO DE ARMAND' S PIZZA PARLORS , ir poblm|n

RcftllrnntI 3 4 f 1

dccndlrntes (rtrtc)! 6 I

Jl ventas trlmestrsleE (dhsdsS)5 I0t t8 TIE

. Dcvhddn

Dctdn lcurdndo

** !-72 *15 *42 -t2 -t3 7

lrt* lf5 ls4 625 r764 l4l9 49 729 | 521 t6l J IE4 $TC * 15730

,t r7l6

E I 10

10 ?0 !"2

n7 t17 r57I6p 149

n

t

w2

39 t9 72

En tas trimestralesdelen cualquierade los restaurantes. la tabla 14.2se mostr que de acuerdo en )y,: 1300.Por lo tanto,la mediade las ventastrimestrales la con los datosde las ventas, : Amand's esi :2y/n = 1300/10 130.En la tabla 14.4septe' de muestra los 10restaurantes al sentala sumade las desviaciones cuadradoque se obtienecuandose usa la media muestral de : 130 para estimar el valor de las ventastrimestralesde cadauno de los restaurantes la una la de Parael i-simorestaurante la muestra, diferencial i proporciona medida muestra. llasumade cuadrados, del error que hay al usar! para estimarlas ventas.La correspondiente madasumalotal de cuadrados,sedenotaSTC.

$TC* fr ( y,- lf

{r+el

como = IS 7j0y STC de ta scE = |SJL, ltnea regresin se estimadaajustamucho mejor a los datos

que ratneay:j.

en La sumadebajode la ltima columnade la tabla 14.4es la sumatotal de cuadrados el ejem= l5 730' estasumaes STC Parlors; plo de Armand'sPizza En la figura 14.5se muestrala llnea de regresinestimada i = 60 * 5x y la llnea colresen ms agrupados torio a la recque pondientes j : l3O. Obsrvese los puntosseencuentran a = l3O. Por ejemplo, s ve que para el 10o. ia de regresinestimadaque en tomo a la llnea j de fe$laurante la muestra,el e''of eSmuchomsgfandecuandoSeUsai = 130paaestimaryl' src como una medidade qu que cuandose usa!,0 = 60 + 5(26) = 190.Se puedeentender en tanto se agrupanlas observaciones tomo a larccla y SCE como una medidade qu tanto se en agrupanlas observaciones torno de larccta j. se de Paramedir qu tanto se desvan ! los valores!, dela rectade regresin, calculaotra debidaa la regresiny seden{} A sumade cuadrados. estasumasele llama sumade cuadrados ta SCR.

lf!ol

14.3 Coeficientedeierminocin de FIGURA I4.5 DESVIACIONES RESPECTO LA LNEE NE REGRESIN A ESTIMADA Y A LA LNEAy : t EN EL EIEMPLO DE ARMAp'5 ptzzA PARLORS

5l

2m?00^ rl

e lgo cE

I 10 g 1$ E f, 120

}ro-I

y,=f e 130

E u t*$ 6 0f0

s s 0

8 1 0 t 2 1 4 1 t 8 2 0 Polclndc estudtcs {mihs)

que Porlo antes dicho,seesperara hubieraalguna relacinentreSTC,SCRy SCE.En efecto, y la relacinentreestas sumas cuadrados tres de constituye de los resultados imporuno ms tantes la estadfstica. de

RLACTNHNTRMSTC,S$BYSCFpuedeentenderse It SCR comola parte explicadade la STC,y la SCEpuedeenlendrse comol Wrte no explicfu dc la STC,

i .

.. ,.I:

$TE*SCR+$CE dsnds

{l f.t r l

$TC s srmstofsl decusdrsdos SCR- urns & curdrodosdebidaa liaregrecin SCE = surm dc cuadrados debidaal eiror

(14.11)muestra que la sumatotal de cuadrados l-a e*uurcin puedeserdividida en dos componentes,la sumade los cuadrados debidaa la regresiny la sumade cuadrados debidaal error. si Por lo tano, seconocendos cualesquiera estssumasde cuadrados, fcil calcular la terde es eerasumade cuadradoePor ejemplo, en el ejemplode Armand's PlzzaParlors,seconocenSCE . = l5l) y STC 15 73O;por lo tan0o, despejando la ewacin(14.11)SCR,seencuenfaque la de sumade los cuadrados debidosa la regresines = S C R = S T C + S C E = 5 7 3 0 -1 5 3 0 1 4 2 0 0 1

562

't4 Coptulo

lineolsimple Regresin

Ahora se ver cmo se usan estastres sumasde cuadrados,STC, SCR y SCE, para obtener una medida de la bondad de ajuste de la ecuacin de regresin estimada. La ecuacin de regresin estimada se ajustara perfectamente a los datos si cada uno de los valores de la variable independiente y, se encontraran sobre la recta de regresin. En este caso para todas las observaciones se tendra eue ) - !, sea igual a cero, con lo que SCE : 0. Como STC : SCR + SCE se ve que para que haya un ajuste perfecto SCR debe ser igual a STC, y el cociente (SCR/STC) debe ser igual a uno. Cuando los ajustes son malos, se tendrin valores altos para SCE. Si en la ecuacin (14.11) se despejaSCE, se tiene que SCE : STC - SCR. Por lo tanto, los valores ms grandes de SCE (y por lo tanto un peor ajuste) se presentancuando SCR : 0 y SCE : STC. El cociente SCR/STC, que toma valores entre cero y uno, se usa para evaluar la bondad de ajuste de la ecuacin de regresin estimada.A este cociente se le llama coeficiente de determinacin y se denota l.

COEFICIENTE DE DETERMINACIN

" r'= scR sffi

tt4.l2l

En el ejemplo de Armand'sPizza Parlors, el valor del coeficient de determinacin es

"" :

SCR

;;' T;;;;:

:

|4?rlr'I

oeo27

I en de el Si se expresa coeciente determinacin forma de porcentaje, se puedeinterpretar que el de comoel porcentaje la sumatotal de cuadrados seexplicamediante usode la ecuacin se 9O.27Vo la de En estimada. el ejemplode Armand'sPizzaParlors, concluyequre de regresin de se variabilidad las ventas explicapor la relacinlineal queexisteentreel tamao la poblaen de tuvieraun ajustetan y cin de estudiantes las ventas.Serabuenoque la ecuacin regresin bueno.

Coeficiente de correlocn

de de el En el captulo3 sepresent coeficiente correlacincomounamedidadescriptiva la indel de r tensidad la relacinlineal entredosvariables y y. Los valores coeficiente correlacin de sonvaloresquevandesde-lhasta+l.Elvalor*lindicaquelasdosvariablesxyyestnp en relacionadas unarelacinlinealpositiva.Es decir,los puntosde todoslos datosse fectamente perpositiva.El valor - I indicaquer y y estn en encuentran unalnearectaquetienependiente en todoslos datosseencuentran unalen relacionadas, unarelacinlinealnegativa, fectamente cercanos cero a de del negativa. valores coeficiente correlacin Los nearectaquetienependiente linealmente. relacionadas indicanque.r y y no estn paracalcularel coeficiente correlacin muestral. de la 3.5 En la seccin sepresent ecuacin y el de de un se Cuando ha realizado anilisis regresin seha calculado coeficiente determinacin se muestral puedecalcularcomoseindicaa continuacin. de l, el coeficiente correlacin

MUESTRAL DE COEFICIENTE COR.RELACINr, : (signo de b,)VCoeficiente de dcterminacin - (srgno d" ,)Vtt

n4.r3l

14.3 Coeficiente determinocin de

53

donde

, = pendientede la ecuaeinde regroeinestimada! = b, * brx El signo del coecientede regresinmuestrales positivo si la ecuacinde regresintiene pendientepositiva (4 ) 0) y es negativosi la ecuacinde regresinestimada tiene pendientenegativa (b, < 0). En el ejemplo de Armand's Pizza Parlol el valor del coeficientede determinacincorrespondientea la ecuacinde regresinestimada! : 60 + 5 es O.q)27.Como la pendientede la (14.13)indicaque el coeficiente coecuacin regresin de esplqada positiva,la ecuacin es de rrelacinmuestral *V0.9027 : *0.9501 Con estecoeficiente correlacin es de muestral, = ro +0.9501,seconcluyeque existeuna relacin lineal fuerte entrex y y. En el casode una relacin lineal entre dos variables,tanto el coeficientede determinacin medidas la intensidadde la relacin. comoel coeficientede correlacinmues8alproporcionan de El coeficientede determinacinproporcionauna medida cuyo valor va desdecero hastauno, mientrasque el coeficientede correlacinmuestralproporcionauna medidacuyo valor va desde -l hasta+1. El coeficientede correlacinlineal estrestringidoa la relacin lineal entredos variables,pero el coeficientede determinacinpuedeemplearse para relacionesno lineales y para relacionesen las que hay dos o ms variablesindependientes. tanto, el coeficientede Por determinacin tiene un rango ms amplio de aplicaciones.

l. Al obtener la ecuacin de regresinestimada mediante el mtodo de mnimos cuadrados y calcular el coeficiente de determinacin, no se hizo ninguna suposicinprobabilfstica acerca del trmino del error e ni ampocouna prueba de significanciaparala relacinentrer y y. Los valores grandesde I implican que la recta de mlnimos cuadrados ajustamejor a los datos; se se es decir, las observaciones encuentranms cerca de la recta de mnimos cuadrados. Sin embargo,usandonicamenteI no se pueden sacarconclusionesacercade si la relacin entre significativa.Tal conx y y es estadfsticamente clusin debe basarse en consideraciones que

implican el tamao de la muestra y las propiedadesde la distribucin muestral adecuada de los estimadoresde mnimos cuadrados. 2. Para fines prcticos, cuando se trata de datos que seencuentran las cienciassociales, en valores de I tan pequeoscomo 0.25 suelen considerarse tiles. En datosde la fsica o de las cienciasde la vida, suelenencontrarse valores de I e O.0O rnayores;en algunoscao sos pueden enconftarse valores mayores de 0.90. En las aplicacionesa los negocios,los valores de I varlanenormementedependiendo de las caracterlsticasparticulares de cada aplicacin.

Mrodo

o"o@

15. [-os daosacnntinuacinson los daos eiercicio 1. del

Ia *uacin de regresinestimadapaa esos daos I : 0.2O+ 2.60x. es (14.8), Qa9) y (14.10) calcule SCE, STC y SCR. a. Empleandolas ecuaciones b. Calcule el coeficienede determinacin f . Haga un compntario sobre la bondad del ajuste. c. Calcule el coeficientede correlacinmuestral.

564

lineolsimple Coptulo14 Regresin 16. Los datosa continuacinson los datosdel ejercicio 2.< a A

La ecuacinde regresinestimadapara estosdatoses i = 68 3x' a. Calcule SCE, STC Y SCR. b. Calcule el coeficiente de determinacin f . Haga un comentario sobre la bondad del ajuste. c. Calcule el coeficientede conelacin muesal. 17. Los datosa continuacinson los datosdel ejercicio 3.

: 7.6 + 0.9. Qu porcentaje de la La ecuacin de regresin estimada para estos datos es I cuadradospuedeexplicarse mediante la ecuacin de regresin estimada?Cul es suma total de el valor del coeficiente de correlacin muestral?

18 :3ffi#',::11?J;ff:f':1ff:1T#t*ffit[ o,,ro@ il,]:',+ 1790.5 581.1. homcdio 2.6 3.4 3. 3.2 3.5 2.9 Srlrio ncnst ($) 3300 3600 1000 3500 39m 3600

Aplicociones

a. Calcule SCE, STC y SCR. b. Calcule el coeficiente de determinacin 12.Haga un comentario sobre la bondad del ajuste. c. Calcule el coeficiente de correlacin muestral. 19. Los datosa continuacinson los datosdel ejercicio 7.

Cara

Fabrhante y modelo AcuraTL BMW330i Ixus IS300 Lexus ES330 C320 Mercedes-Benz Lincoln LS Preuium(V6) Audi A4 3,0 Quattro Cadillac CTS NissanMaxirna 3.5 SE Infiniti I35 Saab9-3 Aero Infiniti G35 JaguarX-Type 3.0 Saab9-5 Arc Volvo 560 2.57

= conflHdd 4 3 5 5 I 3 2 I 4 5 3 4 I 3 3

y = prcdo (t) 33l5() lm570 35 105 35 r74 42230 3822s 3705 3?05 34390 33845 36910 34605 37995 36955 33890

de 14.3 Coeficiente determinocin

55

La ecuacinde regresinestimadapara estosdatoses i : 40 639 - 1301.2x. Quporcentaje de la suma total de cuadradospuede explicarsemediantela ecuacinde regresinestimada? Haga un comentariosobrela bondaddel ajusteCules el valor del coeficientede correlacin muestral? de sobretelevisores alta denicin.Paracada Reporff publica pruebasy evaluaciones 20. Consumer principalmente la calidadde la imagen.Una en modelo seelaboruna evaluacingeneralbasada evaluacinms alta indica un mejor funcionamiento.En los datos siguientesse dan evaluacin de generaly precio de televisores plasmade 45 pulgadas(ConsumerReports,marzo 2006).

Mar DeU Hieense Hitachi JVC LG Maxent Pagasonic Phillipo Proview Samoung

Ptecio 2800 2800 3500 3300 2000 4000 3000 2500 3000

hrntuacin en la valucin

27ca

Plasmaw

62 53 44 50 54 39 66 55 34 39

a.

b. c.

Use estos datos para obtener una ecuacin de regresin estimadaque pueda emplearse paraestimarla puntuacinen la evaluacingeneralde una televisin de 42 pulgadasdado el precio. un Calcule l. Proporcion buen ajustela ecuacinde regresinestimada? general un televisor cuyo precioes $3200. de en Estimela puntuacin la evaluacin

21. Una aplicacinimportantedel anlisisde regresina la contaduraes la estimacinde costos. el Con datossobrevolumen de producciny costosy empleando mtodode mnimos cuadrados para obtenerla ecuacinde regresinestimadaque relacionevolumen de producciny costos, volumende produca puedenestimarlos costoscorrespondientes un determinado los contadores muestrade datos sobrevolumen de producciny costostotalesde cin. Considerela siguiente una operacinde fabricacin.

votumen " t$*r

(unrdde)

Cost06 total*c(*) ,{000 5W 5400 5900 6400 ?000

a. b. c. d.

Con estosdatosobtengala ecuacinde regresinestimadaparapronosticarlos costostotales dado un volumen de produccin. Cules el costo por unidad producida? Calcule el coeficientede determinacin. Quporcentajede la variacinen los costostotales puedeser explicadapor el volumen de produccin? el De acuerdocon el programade produccinde la empresa, mes prximo se debernproducir 500 unidades. Cules el costo to,talestimadode estaoperacin?

de 22. PC World public evaluaciones las cinco mejoresimpresoraslser de oficina y de las cinco La lsercorporativas(PC World, febrero 20O3). impresorade oficina mejor mejoresimpresoras la Minolta-QMS PagePro1250W que en la ryelueefongenglg!rLtuvo una puntuafue evaluada 44)A'{,que fue lsercorporativamejor evalada la Xerox Phase cin de 9l puntos.La impresora

5

l4 Coptulo

Regresin lineolsimple

en la evaluacingeneralobtuvo una puntuacinde 83 puntos.En la tabla siguientese da rapidez,en pginaspor minuto (ppm), en la impresin de texto y precio de cada impresora.

Nombre I 250W Minolta-Q_MS fagePro Brother HL- 1850 LexmarkE320 1250E Minolta-QMS PagePro IIPLaserjet 1200 44(X)/f,l Xerox Phaser Broer HL-240N IBM Infoprintl l20n W8l2 Lexmark Oki Data88300n a. b. c.

fipo Oficina 0ficina Oficina Ocina Oficina Coqporativa Corporativa Corporativa Coqporativa Corporativa

(Fpm) Veloctdad

'tz

l0 t2,.2 10,3

n.7

Prlnters

17.8 16.1 ll"8 19.8 28.2

($) Pnecto 199 499 299 299 399 1850 1000 1387 2089 22W

D la ecuacinde regresinestimadaempleandovelocidadcomo variableindependiente. Calcule l. Quporcentajede la variacin del precio puedeser explicadopor la velocidad de la impresora? Cules el coeficientede correlacinmuestralentre velocidady precio?Reflejaestecoeficiente una relacin fuerte o dbil entre la velocidadde la impresoray el costo?

@

del Suposiciones modelopor pade se aceca modeloapropiado del En un anlisis regresin empieza hacerunasuposicin dependientesindependientes. el casode la regresin e En lineal ra la relacinentrelas variables que de es simple, supone el modelo regresin se !:po*Btx*e los el se de Despus empleando mtodode mnimoscuadrados obtienen valores boy b,, queson del Asf lasestimaciones los parmetros 0 p respectivamente, modelo. sellegala ecuacin de Foy de regresin estimada j=br*brx de de Como sevio, el valor del coeficiente determinacin es unamedidade la bondad ajus1r2.) de aun estimada. embargo, cuandose obtenga valor grande Sin un te de la ecuacin regresin pano hastaque serealiceun anlisis paraf ,la ecuacin regresin de estimada debeserusada paraversi el modeloemUn es ra determinar el modeloempleado adecuado. pasoimportante si pleadoes adecuado probarla significancia la relacin.Las pruebas significancia el de de en es siguientes acefca trminodel errore. del estn basadas las suposiciones en anlisisde regresin ACERCADEL TRMINODEL ERROREN BL ANALTS$ SUPOSICIONES DEREGRESIN ! : F o"* .B.r . * e x cuya media"o valor esperado, es l. El trminodel error es una variablealeaoria cero;esdecir,E(e) : g. por Implicacin:Foyf t sonconstantes, lo tntoE(0) = foy E(F) = B; asf,para y valor dadode r, el valor esperado'de es un

E ( y ) : F o +f l F

(r4.r4l(cantina)

del 14.4 Suposiciones modelo

567

de (14.14)sele conoce comoecuacin regresin. como ya seindic,a la ecuacin o2, e, que sedenota eslamismapafatodoslos valoresde . 2. Lavarianzade o2 y es la Implicacin: La varianzade y respectoa la rectade regesin es igual a mismaparatodoslos valoresde r. 3. Los valoresde e ssn independientes. valor de no estrea Impticacin: El valor de i correspondiente un determinado por lo tanto' a lacionadocon el valor de e conospondiente ningrln otro valor de -r; relacionadocon a el valor de y correspondiente undeterminadovalor de x no esL4 y de ningnotro valor de.r' el valor de 4, El trmino del error es una variablealeatoriadistribuidanormalmente. aleatoriadisImplicacin: comoy esfuncin lineal de e, tambiny es una variable tribuidanormalmente. que obsrvese del las En la figura 14.6semuestran suposiciones modeloy susimplicaciones; con valor le E6t)cambiade acuerdo el valor de x que seconsin en estainterpretaci gtfrca,el de de de x, la distribucin probabilidad e' y pof tantola sea sea-cual el valor dere.Sin embargo, que tienen'todas'la mismavanormales' y, son distribuciones ad de distribucin probabilid de de puntodepende si el valor real de y esmadel nanza.Elvalor especffico errore en cualquier yor o menorqueE(Y)' o setienenunahi que hay En estepuno, quetenerpresente tambinsehaceunasuposicin que la basede la relaentrer y y, Es decir,sesupone ptesis*"iude h flrma de la ielacin p{'No se debeperderde vista el por es cin entrelas variables una rectarepresentada Fo + DELMODELO DE REGRESIN 14. SUPOSICIONBS FIGURADistribuciu de ysn=30

Distribucinde

y on.r= 20Distribucin de y en.r= 10 E(y) cuando =10

E(y)cuando =0 \r*

=0 E(y) cuando .x=30 E(y) = Bo+B1x

x=20 =30E(y) cuando x=2O

Nokr Paracadauno de los valored de las disftibucionesY tienenla mismaforma'

58

lineol 14 Copitulo Regresin simple haberalgnotro modelo,por ejemploI : Fo + flrf * e' queresulteserun hechode quepuede mejormodeloparala relacinen estudio.

lr.s)Pruebade significanciade lineal simple,la mediao valor esperado y esunafuncinlineal de En unaecuacin regresin Bresceto,E(y):Bo+(0)x:o'Enestecaso'elvadex:E(y): fo+ Brx'Perosielvalorde del lor medio de y no depende valor de .r y por lo tanto se puedeconcluir que I y y no estnrePero si el valor de B, es distinto de cero, se concluirque las dos linealmente. lacionadas signifiuna Por relacionadas. lo tanto,paraprobarsi exise relacinde regresin estn variables valor de Bt es distinto de cante,se deberealizaruna pruebade hiptesispara determinarsi el de una estimacin o2, la se qo" cero.Hay dos pruebas ,on las msusaas.n ambas, requiere vaianzade e en el modelode regresin.

Estimocinde o2se y con De acuerdo el modelode regresin con sussuposiciones' puedeconcluirqueo2, la vatambinla vaianza de los valoresde y respectoa la recta de regresin' nanzade , representa se estimada les de qui Recurdese a las desviaciones los valoresde y de la rectade regresin es residuales, una de Por conocecomo residuales. lo tanto,SCE,la sumade los cuadrados los estimada. a respecto la lfnea de regresin reales de de la variabilidad las observaciones medida Elerrorcuadradomedio (ECM)proporcionaunaestimacindeoz;estaestimacinesSCEdi de vidida entresusgrados libertad' como expresar Como!, : bo * rx,,SCEsepuede SCE: l(y, - j,)' :2(y, - bo- bp)z de un le A cadasumade cuadrados corresponde nmerollamadosusgrados libertad'Seha de- 2 grados libertad porqueparacalcularSCEes necesario estima de mostradoque SCE tienen SCEentren - 2. mediosecalculadividiendo os dosparmetr @oy flt).por lo tanto,el cuadrado un de insesgado o2. Como el valor del ECM proporciona estiun ECM proporciona estimador s'. tambinla notacin madode o2, se emplea ERRORCUADRADOMEDIO (ESTIMACINDE O2)

?=ECM* n-Z

scE

f tl.t5l

= por que En la seccin14.3seencontr en el ejemplodeArmand'sPizzaPulors,SCE 1530; lo tanto, s 2: E C M :

t..q;

= .f.r .2s

de insesgado o2' esun estimador para estimaro se sacala raz cuadrada 2. Al valor que se obtiene,, se le conooecomo de elenor estndarde estimacin' ERRORESTANDARDE ESTIMACIN

,=ffi=\m

(tt tl

de 14.5 Pnebo significoncio

59

yl9l.25 = 13.829. errorestndar de El s En et ejemplodeArmand'sPizzaParlors, = VECM : la relade de de acerca las pruebas significancia siguiente en emplea la discusin estima;irrse cinentrexyy.

Pruebt rElmodeloderegresinlinealsimplees!:0oIBrx*e.Sixyyestnrelacionadaslinealmente, entoncesp , * O.nlobjetivo de la prueba t es determinar si se puede concluir que Br * 0. Para probar la hipiesis siguiente acercadel parmetroB, se emplearnlos datos muestrales. Ho:Bt:0 Hu:Bt*O Si se rechaza f16, se concluir que fl, * 0 y que entre las dos variables existe una relacin estadsticamentesignificante. La base para esta prueba de hiptesis la proporcionan las propiedades de la distribucin muestral de br, el estimador de Br, obtenido mediante el mtodo de mnimos cuadrados. primero, considreseque es lo que ocunira si para el mismo estudio de regresin se usIra offa muestfa aleatoria simple. Supngase,por ejemplo, que Armand's Pizza Parlors usa una El muesfa de las ventas de otros 10 restaurantes. anlisis de regresin de esta otra muestra dar como resultado una ecuacin de regresin parecida a la ecuacin de regresin anterior exactamentela misma ecuacin 9 : 60 * 5. Sin embargo, no puede esperarseque se obtenga con el eje y sea exactamente60 y la pendiente sea exaciuna ecuacin en la que la interseccin lamente 5). Los estimadoresboy br, obtenidos por el mtodo de mnimos cuadrados,son estadsticos muestralesque tienen su propia distribucin muestral. A continuacin se presentanlas propiedadesde la distribucin muestral de b,.

DISTRIBUCIN TTUCSTNET NE A,

Valoresperado E(bi = ft esldndnr Desvlacinob, o

{thl4

Forma de la distribwin Normal

que el valor esperadode b, es 0t, Pof lo que r es un estimador insesgadode Bt' ' Obsrvese Como no ," "ono"" el valor de o, se obtiene una estimacin de oo,, que se denota s6,,estimando o mediante s en la ecuacin (14.17). De esta manera se obtiene el estimador siguientede Obt.

A la deniacin estndar de br, se le conoce tambin como error cstndar de br. Pol lo tan o, sbt pr'aPolcio' no rna stimacin del enor estndar de b,.

DESVIACINESTANDARFSTIN{ADADE :I tu,=;m

{t/t-NNl

570

14 lineol Coptulo Regresin simple Por En el ejemplode Armand'sPizzaParlors,s : 13.829. lo tanto,dadoque )(4 - ;2 : 563 en comosemuestra la tabla 14.2,setieneque

, r ,:

13.829

\6os:0.5803

es la desviacin estndarestimadade br. La prueba t para determinar si la relacin es significativa se basa en el hecho de que el estadfstico de prueba

bt-FtJ,

sigue una distribucin t conn - 2 grados de libertad. Si la hiptesis nula es verdadera,entonces Ft=0Y t: brls6r' Ahora se realizarestaprueba de significancia con los datos de Armand's Pizza Parlors, empleando como nivel de significancia a = 0.01. El estadlstico de prueba es b r 5 ': ,t,: or*

: 8'62

n EntosapndicesI4.3y Enlastablas deladistribucinrseencuentraquepara - 2: l0 - 2:8 gradosdelibertad, 14.4 muestra uso se el de t : 3,355 da un rea de 0.005 en la cola superior. Por lo tanto, el reaen la cola superior de la para Mintab deExcel v distribucin t correspondienteal valor del estadsticode prueba t : 8.62 debe ser menor a 0.005. el calcular valor-p Como esta prueba ", unu prueba de dos colas, este valor se dupca y se concluye que el valor-p para t : 8.62 debe ser menor a 2(0.005) : 0.01. Empleando Excel o Minitab se encuentravalor-p - 0.000. Dado que el valor-p es menor a a : 0.01 se rechazaflo y se concluye que B, no es igual a cero. Esto es suficiente evidencia para concluir que existe una relacin significativa entre la poblacin de estudiantesy las ventas trimestrales.A continuacin se presentaun resumen de la prueba r de significancia para la regresin lineal simple.

LIhIEAL SMPLE T PRUEBA DE SIGNIFICANCIAPARALA REGRESIN

Ho:Bt=o Hu:Br*oESTADSTICO PRTJBBA DE b,L _

t,

(r4.rel

REGI-ADERECHAZO Rechazarilo si valor-p = a Mtodo del valor-p: I/o Mtododel valor crftico: Rechazar si I s 'tatzo si t > t*, de dondero, se toma de la disribucin I con n - 2 grados libertad.

lntervolo de confio nzc porq p;La frmula paraun intervalo de conftanzapra Ft es la siguiente: b, + to,rsu,

de 14.5 Pruebo significoncio

57r

El El estimador puntual es , y el margen de error es toDsb,. coeficiente de confianza para este intervalo es I - a y tutzes el valor / que proporciona un rea qlZ en la cola superior de la distribucin t con n - 2 grados de libertad. Supngase,por ejemplo, que en el caso de Armand's Pizza Parlors se deseaobtener una estimacin de B, mediante un intervalo de 99Vode confianza. Enlatabla2delapndiceBseencuentraqueelvalor/correspondienteaG:0.0lyn-2: : l0 - 2 : 8 gradosde libertad es /0.005 3.355. Por lo tanto, la estimacinmedianteun intervaIo de 99Vode confianza es b , - + t o , r s u ' : 5 - r 3 ' 3 5 5 ( 0 ' 5 8 0 3:) 5 a l ' 9 5 o el intervaloque va de 3.05 a6.95. Al emplear la prueba r de significancia la hiptesis probada fue H oB r : 0 : Hu:Br*0 Empleando a : 0.01 como nivel de significancia, se puede usar el intervalo de 99Vode confianza como alternativa para llegar a la conclusin de la prueba de hiptesis que se obtiene con los datos de Armand's. Como 0, que es el valor hipottico de B,, no est comprendido en el intervalo de confianza(3.05 a 6.95), se rechazaHo y se concluye que entre el tamao de la poblacin de estudiantesy las ventas trimestrales s existe una relacin estadsticamentesignificativa. En general, se puede usar un intervalo de confianza para probar cualquier hiptesis de dos colas acercade B,. Si el valor hipottico de B, est contenido en el intervalo de confianza, no se rechaza Ho. De lo contrario, se rechazaHr.

Pruebo FUna prueba F, basadaen la distribucin de probabilidad F puede emplearsetambin para probar la significancia en la regresin. Cuando slo se tiene una variable independiente,la prueba F lleva a la misma conclusin que la prueba /; es decir, si la prueba r indica que Bt * 0 y por lo tanto que existe una relacin significante, la prueba F tambin indicar que existe una relacin significante. Pero cuando hay ms de una variable independiente,slo la prueba F puede usarse para probar que existe una relacin significante general. Lalgicadetrs del uso de la prueba F para determinar si la relacin de regresin es estadsticamente significativa se basaen la obtencin de dos estimacionesindependientede o2. Se explic cmo ECM proporciona una estimacin de o2. Si la hiptesis nula llo: F, : 0 es verdadera,la suma de cuadradosdebida a la regresin, SCR, dividida entre sus grados de libertad proporciona otra estimacin independientede o2. A estaestimacin se le llama el cuadrado medio debido a la regresin o simplementeel cuadrado medio de la regresin. Y se denota CMR. En general, CMR : SCR Gradosde libertadde la resresin

En los modelos que se consideranen este texto, el nmero de grados de libertad de la regresin es siempre igual al nmero de variables independientesen el modelo: CMR: SCR Nmero de variables independientes

(r4.2O)

Como en este captulo slo se consideran modglos de regresin con una sola variable independiente, se tiene CMR : SCR/I : SCR. Por 1o tanto, en el ejemplo de Armand's Pizza Parlors, CMR : SCR: 142Oo. indepenSi la hiptesisnula es verdadera(Hoi F t: 0), CMR y ECM son dos estimaciones sigue una distribucin F en la que el ndientes de o2 y la distribucin muestral de CMR/ECM

572

l4 Coptulo

lineolsimple Regresin

mero de grados de libertad en el numerador es igual a uno y el nmero de grados de libertad en el denominador es igual a n - 2. Por lo tanto, si r : 0 el valor de CMR/ECM deberser un valor cercano a uno. Pero, si la hiptesis nula es falsa, (8, + 0), CMR sobreestimaro2 y el valor de CMR/ECM se inflar; de esta manera valores grandes de CMR/ECM conducirn al rechasignificante. zo de Ho y a la conclusin de que la relacin entre x y y es estadsticamente realizar la prueba F en el ejemplo de Armand's Pizza Parlors. El estadsA continuacin se tico de prueba es

l42oo: .,a)< 'o: 9MS : ECM t9t.25tineatsim- En la tabla de la distribucin F (tabla 4 del apndiceB) se observa que con un grado de libertad Enta resresin ple,laprueba laprueba en el numerador y n - 2 = l0 - 2= 8 grados de libertad en el denominador,F : 11.26proporFy resultados ciona un reade 0.01 en la cola superior.Por lo tanto, el reaen la cola superior de la distribucin t proporcionan idnticos' F que correspondeal estadsticode prueba F : 74.25 debe de ser menor a 0.01. Por lo tanto, se concluye que el valor-p debe de ser menor a a : 0.01. Empleando Excel o Minitab se encueny tra que valor-p = 0.000, Como el valor-p es menor a a : 0.01, se rechaza.Flo se concluye que entre el tamao de la poblacin de estudiantesy las ventas trimestrales, existe una relacin significante. A continuacin se presentaun resumen de la prueba F de significancia para la regresin lineal simple.

PRI.JEBAFDE SIGNIFICANCTAEN EL CASO DE LA REGRESINLN.TEALSIMPLESi Hoesfalsa, ECM proporciona una estimacin insesgada de o2 y et CMR sobreestima o'. Si Ho et verdadera, tanto ECM como CMR proporcionan una estimacin nsesgada de o2; en este caso el valor de CMMECM es cercano a I.

Hr:Br-o H8,*oESTAD STICO DE PRI.IEBA

r=ffiREGLADERECTIAZO Rechaza llo si valor-p s a Mtodo del valor crtico: Rechaza Hosi F > Fo Mtodo del valor-p:

{tt"2tl

donde d es un valor de Ia distribucin F con I grado de libertad en el numeradot y n - 2 grados de libertad en el denominador.

En el captulo 13 se vio el anlisis de varianza (ANOVA) y el uso de la tabla de ANOVA para proporcionar una visin resumida de los clculos que se emplean en el anlisis de varianza. Para resumir los clculos de la prueba F de significancia para la regresin se emplea una tabla ANOVA similar. En la tabla 14.5 se presentala forma general de una tabla ANOVA para la regresin lineal simple. En la tabla 14.6 se presentala tabla ANOVA con los clculos para la prueba F del ejemplo de Armand's PizzaParlors. Regresin, error y total son los rtulos de las tres que aparecen fuentes de variacin, y SCR, SCE y STC las sumasde cuadrdoscorrespondientes los de en la columna2.En la columna 3 aparecen g'rados libertad I para SCR, n - 2paraSCE y n - 1para STC. Los valores de CMR y ECM aparecenen la columna 4. En la columna 5 aparece el valor de F : CMR/ECM, y en la columna 6 apareceel valor-p que conesponde al valor de F de la columna 5. Casi todos los resultadosproporcionados por computadoraspara el anlisis de regresin presentanuna tabla ANOVA de la prueba F de significancia.

14.5 Pruebo significoncio de TABTA I4.5 FORMA GENERALDE LA TABLA ANOVA PARALA REGRESIN LINEAL SIMPLE Suma de cuadrados SCRSCE

573

En toda tabla para el anlisis de varianm, la suma total de cuadrados es la suma de la suma de cuadrados de la regresin ms la suma de cuadrados del error; ademds, el total de los grados de libertad es ls suma de los grados de libertad de la regresin ms los grados de libertad del error.

Fuente do varlaoln Regresin Ermr Totl

Grados delibertad In- 2 n - l

Cuadrado mdio

fFCMR CME

Yabrp

CMR: YCME::SCE n - Z

src

Algunos odverlenciqs qcercq de lo interprefocin de los pruebqs de significoncioCuando se rechaza la hiptesis nula 10: : 0, concluir que la relacin que existe entre r y y es fr, significativa no permite que se concluya que existe una relacin de causa y efecto entre .r y ). Que exista una relacin de causay efecto slo puede concluirse cuando el analistapueda darjustificaciones tericas de que en efecto la relacin es causal.En el ejemplo de Armand's PizzaParlors, se concluye que existe una relacin significante entre el tamao de la poblacin de estudiantes.ry las ventastrimestralesly; an ms, la ecuacin de regresin estimadai : 60 + 5 da una estimacin de la relacin obtenida por el mtodo de mnimos cuadrados.Sin embargo,por el solo hecho de que se haya encontrado que hay una relacin estadsticamente significativa entre x y y, no se puede concluir que cambios en la poblacin de estudiantesx. causen cambios en las ventas trimestrales y. Si es posible concluir que haya una relacin de causa y efecto se deja a las justificaciones tericas y a la opinin de los analistas. Los administradores de Armand's crean que el aumento en la poblacin de estudiantesprobablementefuera una causadel aumento de las ventas trimestrales. Por lo tanto, el resultado de la prueba de significancia les permite concluir que hay una relacin de causay efecto, Adems, el hecho de que se pueda rechazarHo: fl, : O y demostrar que hay significancia estadstica no permite concluir que la relacin entre r y y sea lineal. Lo nico que se puede decir es que r y y estnrelacionadasy que la relacin lineal explica una porcin significante de la variabilidad de y sobre el rango de los valores de x observadosen la muestra. En la figura 14.7 se ilustra esta relacin. La prueba de significancia lleva al rechazo de la hiptesis nula Ho: Br: 0 y a la hiptesis de que r y y estn significantemente relacionadas,pero en la figura se observa que la verdaderarelacin entre r y y no es lineal. Aunque la aproximacin lineal proporcionada

El aruilisis de regresin, que se usa para identijlcar la relacin entre las variables, no puede emplearse como evidencia de una relacin de causa ! efecto.

TABIA14. TABLAANOVA PARAEL EJEMPLODE ARMAND'S PIZZA PARLORS

f'umto de vrrlacln R-g*riq" rror : totat

Sumado cudrados 14200 1530 15730

Grsdof dellbertd I E

Cusdrrdo mtdlo

r

Valor.p

,s# * 142oo = i4.zs o.ooo #$#1530 = 191.25 I

574

l4 Coptulo I4.7 FIGURA

lineol Regresin simple EJEMPLODE UNAAPROXIMACIN LINEAL PARAUNA RELACIN QUE NO ES LINEAL

i-bo+b{

Valormenor deRangode los valoree de obserYados

por I : bo+ brx es buena en el rango de los valores observadosde x en la muestra, se vuelve deficiente fuera de ese rango. Dada una relacin significante, la ecuacin de regresin estimadase puede usar con confianzapara predicciones correspondientesa valores de x dentro del rango de los valores de observados en la muestra. En el ejemplo de Armand's Pizza Parlors, este rango corresponde a los valores de entre 2 y 26. A menos que haya otras razonesque indiquen que el modelo es vlido ms all de este rengo, las predicciones fuera del rango de la variable independientedeben hacerse con cuidado. En el ejemplo de Armand'sPizza Parlors, como se ha encontradoque la relacin de regresin es significante al nivel de significancia de 0.01, se puede tener confianzapura usar esta relacin para predecir las ventas de restaurantesen los que la poblacin de estudiantes correspondienteest en el intervalo de 2000 a26 OOO.

hechasacercadel trmino del Las suposiciones error (seccin 14.4) son las que permiten las pruebasde significanciaestadstica estasecde de cin. Las propiedades la distribucin muespruebas r y F tral de b, y las subsiguientes de siguendirectamente estassuposiciones. 2. No se debeconfundir la significanciaestadstica con la significancia prctica. Con tamaos de muestramuy grandes,se puedenobtenerrepara vasignificantes sultadosestadsticamente lores pequeosde 1; en tales casoshay que tener cuidado al concluir que la relacin tiene signifi cancia pr ctica. 3. Una pruebade significanciaparala relacin lineal entre y y tanin se puederealizar usando el coeficiente de correlacin muestral r-.

Empleando rxy pnra denotar el coeficiente de correlacinpoblacional,las hiptesisson las siguientes. Ho"P,, : 0 Hu: P,, * 0 Si se rechaza se puedeconcluirque existe Ho, una relacin significante.En el apndice14.2 se proporcionanlos detallesde estaprueba.Sin embargo,las pruebasr y F presentadas esta en seccindan el mismo resultadoque la prueba de significanciausandoel coeficientede correlacin. Por lo tanto, si ya se ha realizadouna pruebaf o una pruebaF no es necesario realizar una prueba de significancia usando el coeficiente de correlacin.

14.5 Pruebo significoncio de

575

Mtodos

o"o@

23. A continuacinse presentan datosdel ejercicio l. los

a. Usandola ecuacin(14.15) calcule el error cuadradomedio. b. Usandola ecuacin(14.16) calcule el error estndar estimacin. de c. Usandola ecuacin(14.18) calcule la desviacinestndar estimadade ,. (c d. Use la pruebat paraprobar las hiptesissiguientes : 0.05) Ho:Pr=0 Hu:Br#0 e. Use la pruebaF paraprobarlas hiptesisdel inciso d) empleando como nivel de significancia 0.05. hesente los resultados el formato de tabla de anlisisde varianza. en

24. A continuacinsepresentan datosdel ejercicio 2. los

a. Usandola ecuacin(14.15) calcule el error cuadradomedio. b. Usandola ecuacin(14.16) calcule el error estndar estimacin. de c. Usandola ecuacin(14.18) calcule la desviacinestndar estimadade 0,. d. Use la prueba/ para probar las hiptesissiguientes(a : 0.05). Ho:Br=0 Hu:Br#0 e. Use la pruebaF paraprobarlas hiptesisdel inciso d) empleando como nivel de significancia 0.05. Presente resultados el formato de tabla de anflisis varianza. los en de

25. Acontinuacin se presentan datosdel ejercicio 3. los

a. Cules el valor del error estndar estimacin? de b. Pruebesi existeuna relacin significanteusandola pruebaf. Use c = 0.05. Emplee la pruebaF para ver si existe una relacin significante.Use c : 0.05. Cules la conclusin?

Aplicqciones

o"o@

26' el ejercicio 18 los datossobrepromedioobtenidoen la licenciaturay salariosmensualesfueEnron los siguientes.

Promdlo 2.6 3.4 3.6

Salrlcmeneul(S) 3300 3600 4000

Ptomdlo 3.2 3.5 2.9

Shrlorutmrl($) 3500 3900 36fr)

576

l4 Coptulo a. b.

lineolsimple Regresin

significanteentrepromedioy salariomensual? IndicaIa pruebar que haya una relacin usando la prueba F. cul es la conclusin?use Pruebe si Ia relacin es significante a :0.05. c. D la tabla ANOVA' En para excursionismo' la y 27. La revista outside Magazineprob l0 modelosde mochilas botas y precio de cadamodelo.El soportesutabla siguient" ," p."r*tun los datosde soportesuperior soy denotaexcelente perior se midi con una escaladel I al 5 en la que I significa aceptable 5 Guide 2001)' porte superior(OutsideMagazineBuyer's

Boots

Fabrlcante Y modelo Raid Super Salomon Prme Merrell Chameleon TevaChallenger Fuon GTX Vasque Boreal Maigrno Guide GTX SuPer L.L. Bear Lowa Kibo AsoloAFX 520 GTX RaichleMl Trail GTX Delta SL M3 Scarpa

$oportetuperlor 3 3J

3 5 5 4 4 5

Pr?do(18) t20 125 130 t35 150 189 190 t95 20 229

paraestimarel precio de las a. Use estosdatosparaobtenerla ecuacinde regresinestimada con baseen el soportesuperior. mochilasy las botaspara excursionismo y superior precio. si a b. Empleand-o = 0.05.determine hay relacinentresoporte la ecuacinde regresinestimadaobtenidaen el inciso a) paraestimarel c. Confiaraen usar supeprecio de las mochilasy botas para excursincon baseen la evaluacindel soporte rior. del soportesuperior d. Estime el precio de una mochila que tiene un 4 como evaluacin de dormir de Bergans ('F) 28. En el ejercio 10,con los datosde temperatura y precio ($) de ll sacos j estimada = 359.2508- 5.277b' Empleando de Norway se obruvo la ecuacinde regresin D relacionados' la ta' y 0.05 com nivel de significancia,dterminesi temperatura precio estn esla conclusin? bla de ANOVA. Cul producciny costospara 29. Vuelva al ejercicio 2I,enelque se usaronlos datossobrevolumen de el volumende producciny los cosque relacionaba obteneruna ecuacinde regresinestimada de ope-racin produccin.Use cr = 0.05 paradeterminarsi el volumende tos de una determinada D la tablaANOVA' produccinestrelacionadode maneiasignificativacon los costostotals' Cules la conclusin? paradeterminarsi el preciode 30. Vuelva al ejercicio 22,en elque seemplearonlos datossiguientes texto (PC World' febrero una impresoraestabarelacionadocon su velocidadpara imprimir un 2003).

Nornbrt 1250W Minolta-QMSPagePro HL-l850 Brother Irmark E320 1250E Minolta-QMSPagePro HPLaserjet12fi) 4400/l'{ Xerox Phaser BrotherHL-2460N

fipo Oficina Oficina 0ficina Ofrcinf, Oftr{rtt Co*Porntiva Corpmatiw

Y*iloddrn$pnul t2 t0 t2.2 r0.3ll.7 l?.8 16.l

Pdo(l) 199

'w tw

4ry

Prlntcru

t00tt vilfu!

rtr

r99

14. Usode lo ecuocin regresin de poro estimociones estimodo y predicciones

577

Nombre IBM Infoprint 1120rr LexmarkWSl2 Oki DataB83mri

fipo Corporava torporativa Corporativa

Vetocidad (ppm) il.8 19.8 28.2

Precio ($) 1387 2089 22W

que hayauna relacin significanteentrevelocidadde impresiny precio? Indicanlas evidencias y Realicela pruebaestadstica apropiada d su conclusin.Use a : 0.05. En el ejercicio20 con los datossobre : precio($) y y : evaluacin 31. general l0 televisores de de plasma,de 42 pulgadasprobadaspor ConsumerReportsse obtuvo la ecuacinde regresin estimada! : 12.0169 +0.0127x.Con estos datosseobtuvieron y SCE : 540.04 STC : 982.q. Use la pruebaF paradeterminarsi el preciode los televisores plasma,de 42 pulgadas la evade y luacin generalestin relacionados. Use s = 0.05.

(t*.u) Uso de la ecuacin de regresin estimada para estimacionesy prediccionesAl usar el modelo de regresin lineal simple se hace una suposicin acercade la relacin entre x y y. Despus se usa el mtodo de mnimos cuadradospara obtener una ecuacin de regresin lineal simple estimada.Si existe una relacin significante entre r y y y si el coeficiente de determinacin indica que el ajuste es bueno, la ecuacin de regresin estimadaes til para estimaciones y predicciones.

Esiimocin puntuolEn el ejemplo de Armand'sPizza Parlors, la ecuacin de regresin estimada.l : 60 * 5x proporciona una estimacin de la relacin enfte x el tamao de la poblacin de estudiantesy y las ventas trimestrales.Con la ecuacin de regresin estimada se puede obtener una estimacin puntual del valor medio de y correspondientea un determinado valor de x o se puede predecir el valor de y que coresponde a un valor de r. Por ejemplo, supngaseque los gerentesde Armand's deseanuna estimacin puntual de la media de las ventas trimestrales de todos los restaurantes que se encuentren cercade campusde 10 000 estudiantes. Usandola ecuacinde regresinestimada!:60+5x,con.r=10(o10000estudiantes)seobtienei:60+5(10)=ll0.Porro tanto, una estimacin puntual de la media de las ventastrimestrales de todos los restaurantes ubicadoscercade campusde l0 000 estudiantes $110 000. es Ahora supngaseque los administradoresde Armand's deseanpredecir las ventas de un deerminadorestauranteubicado cerca de Talbot College, una escuela de l0 000 estudiantes.En est caso lo que interesa no es la media correspondientea todos los restaurantesque estn cerca de campus de 10 000 estudiantes,sino nicamente predecir las ventas trimestrales de un determinado restaurante.Enrealidad,la estimacin puntual de un solo valor de y es igual a la estimacin puntual de la media de los valores de y. Por lo tanto, la prediccin de las ventas trimestrales de esterestaurante sern! : 60 + 5(10) : ll0 o $110 000.

Estimocin por intervqloIns intervalos d confianza y los intervolos de prediccin indcan la precisin dz Ios resultodos dc la regresin. los intnalos wis estrechos pmporcionan mayor precisn,

Las estimaciones puntuales no proporcionan informacin alguna acercade la precisin de una estimacin. Para eso es necesarioobtener estimacionespor intervalo que son muy parecidasa las de los captulos 8, 10 y 11. El primer tipo de estimacin por inervalo,el intervalo de confianza es una estimacin por intervalo del valor medio de las y que correspondena un valor dado de x. El segundotipo de estimacin por intervalo, el intervalo de prediccin, se usa cuando se necesita una estimacin por intervalo de un solo valor de y para un valor dado de x. La estimacin puntual del valor medio de y es igual a la estimacin puntual de un solo valor de y. Pero las estimaciones por inervaloque se obtienen para estos dos casos son diferentes. En un intervalo de prediccin el margen de error es nryor.

578

l4 Copitulo

lineolsimple Regresin

Intervolo de confiqnzq porq el vqlor medio de yCon la ecuacin de regresin estimada se obtiene una estimacin puntual del valor medio de y que correspondea un valor dado de . Para obtener un intervalo de confianza se usa la notacin siguiente. xo : valor dado de la variable independientex )o : valor de la variable dependientey que correspondeal valor dado p E(yp) : valor medio o valor esperadode la variable dependientey que corresponde al valor dado xp : bo * brxr: estimacin puntual de E(yp) cuando x : xp io Armand's que Empleando esta notacin para estimar la media de las ventas de los restaurantes se encuentran cercade un cImpus de 10 000 estudiantes,se tiene que xp : IO y E$r) denota el para los que xo: IO. La estimavalor medio desconocidode las ventas de todos los restaurantes cin puntual de E$) est dada Por ip : 60 + 5(10) : 110' En general, no se puede esperar Queip sea exactamenteigual a EO).Para hacer una inferencia acercade qu tan cerca estjo de la media E(f/, es necesario estimar la varianza de io. La frmula para estimar la varianza de !n para un x, dado se denota sf", y es

,:rl:.#*l(r4.22).

lr4.22l

Una estimacin de la desviacin estndarde !o est dada por la raz cuadrada de la ecuacin

[ . sr , : "sY ln "- . 1-

t

, ra-tf)(x,-.i)2

(r4.23)

en obtenidos la seccin14.5parael ejemplode Armand'sPizzaParlorsse En los resultados 10,f : 14y X- i)2:56S,usandolaecuacin(14.23)seobtienes: l3.8zg.Comoto= tiene

h no - t4) t * ' s o: 13.829V,O- 568 : B.azgi282:4.95paraobtener intervalode confianza. un la se A continuacin presenta frmulageneral

DE INTETALO CONFIANZAPARA8(yn)El margen de error en esta estilnac in po r inte malo (este intemalo de estimacin) es torsgr.

9p t

totzsgn

(r4.241

- 2 donde el coeficiente de confianza es I * ey totzesun valor de la distribucin t con n grados de libertad.

Paa obtener, con la frmula (14.24), un intervalo de confianza de 95Vo para la media de las ventas trimesftales de los restaurantesArmand's que se encuenan cerca de campus de l0 000 estudiantes,senecesitaelvalorderparao,l2:O.025yn-2=10-2=8gadosdelibertad.En la tabla 2 del apndice B, se encuentra to.o2s: 2.306. Por lo tanto, como !o : I l0 y el margen de error es tonsgo: 2.3M(4.95) : 11.415,la estimacinpor intervalo de 957ode confianza es 110 -'- 11.415

14. Usode lo ecuocin regresin de estimqdo poro esiimociones predicciones y

579

FIGURA I4.8

INTERVALOSDE CONFIANZA PARALA MEDIA DE LAS VENIAS y CORRESPONDIENTES AVALORES DADOS DELTAMAO DE LAPOBLACIN DE ESTUDIANTESx

Llmite superior

:"&96

#

'Et* e E 8 0

teo 8 g 140 I E 120 8= En.ro setiene la mnngr amplitud del inervalo de conffanz

- -

rhiteinferior

Is fmiles delo0intsrralo$ deconanaa&pen&r derp

10 t2 t4 16 l8 (miles) Poblaci estudtnes dc

En dlares,el intervalo de 95Vo conftanzaparalamediade las ventastrimestrales todoslos de de que restaurantes seencuentran cercade un campus l0 000 estudianes ll0 000 + $11415. de es Por lo tanto,si el tamao la poblacinde estudiantes l0 000, el intervalode 95Vo conde es de franza para la media de las ventas trimestralesen los restaurantes cercanosa un campusde l0 000 estudiantes el intervaloque va de $98 585a$L2l 4L5. es que Obsrvese la desviacin es&ndar estimada !0, dadapor la ecuacin de (14.23), menor es cuandoxp: y la cantilad - : 0. En estecaso,la desviacin xp estrindar estimada !o se de convierteentin:"

G-flz2(x, - i)2

: " !F ;

Esto significa que cuando xp: i se obtiene la mejor estimacin o la estimacin rnrs precisa del valor medio de y. Entre ms aleiada estxn de i, mayor rcrl xn - . El resultado es que los intervalos de conftanza para el valor medio de y son mrsamplios a medida que rn se aleja de i. En la figura 14.8 se muestra esto grtftcanente.

lntervqlo de prediccin pqro un solo volor de ySupngase que en lugar de que lo que ineresesea estimar el valor medio de l,asventas de todos los restaurantes Armand's que se encuentran cerca & cam[rus de 10 000 efdiants, se deseen estimar las ventas de un solo restaurante que se encuentra cerca &, Tblbot College, una escuela

580

l4 Copitulo

lineolsimple Regresin

de 10 000 estudiantes.Como ya se indic, la estimacin puntual de yo, el valor de ) que cones: * btxo.ln el caso ponde a un valor dado xo, se obtiene mediante la ecuacin de regresin!, ?o : 10, las ventas trimestrales pronosticadasserestaurante cercae talUot College, como.rp el rn i- : 60 + 5(10) : 110o $110 000. Obsrveieque estevalor es el mismo que el obtenidocomo L'stimacin puntual de la media de las ventas en los restaurantesque se encuentrancerca de campus de l0 000 estudiantes. para obtener un intervalo de prediccin, es necesariodeterminar primero la varianza cores: xp' Esta varianpondiente al uso de !o como estimacin de un valor individual de y cuando a x za estformada por la suma de los dos componentessiguientes' 1. La varianzade los valores individuales de y respectoa la media E( yo), para la cual una estimacin estdadaPor s2 2. Lavaianzacorrespondiente al uso de !o para estimar E(yr), para la cual una estimacin est dada Por s', La frmula para estimar la vaianza de un valor individual de yo que se denota sfio' es

Ji"d:s2+sl (,rn- x): I . "tl I :s2+r2l:+--P Ln ztx- fl2) ( x o- ; ) 2 I | ,[-

: t-Lt*

;* >tt,- tf I (r"-- --f >@,_*

(r4.2s)

por lo tanto, una estimacin de la desviacin estndarde un solo valor de )o es la dada porsind :

s

-, ; \-

(r4.2)

En el ejemplo de Armand'sPizza Parlors, la desviacin estndarestimada que corresponde a la prediccin de las ventas de un determinado restaurante que est cerca de un campus de se 10 000 estudiantes calcula como sigue.

+ sr'u 1 3 . 8 2\9l + , - ,: l Y l0 : 13.829\'11.1282 : 14.69

I

I

rro-l4f568

es paraun intervalode prediccin comosigue La frmulageneral

N*,NEYN INTERVALODE PREDICCTITIEl margen de error de este intervalo de estimacin es tatzsitu

in t forrs"o

(tL2rl

- tanes un velor ds la distribucin r para n dsnde el eosficients de confianza s I ! ? grados de libqtad \_ del El intervalo de prediccin de las ventastrimestgales restaurantesituado cerca de Talbot Colla: : /o.ozs 2.306 y s,no 14.69.Por lo tanto, como-in--:- ll0 y-el margen ge se encuentraempleando : " ".o. es /o/2rind 2.306(14.69) : 33.875, el intervalo de prediccin de 957o de confianza es

1 1 0+ 3 3 . 8 7 5

y poro estimociones predicciones estimodo de 14. Usode lo ecuocin regresin

58r

PARALAS VENTAS y QUE CORRES. FIGUMI4.g INTERVALOSDE CONFIANZAY DE PREDICCIN PONDENA VALoRES DADOS .TDEL TAMAO NT LA POBLACINDE ESTUDIANTES

240 220Lnites del inervalo de confianza Los iniervalosde prediccinson ms anchos Lfihites de los intprvalos ds prpdiecin

a2 W

f rro rooI E r40 I

.t tzot* * 8 060 2A Is dosintervalos la tienen monor amptitu!cllS=

i-

L4

o

18 2A L4 16 l0 t2 (mlteo) Foblclnde ertudlnntes

En general,tanto las lneas de los lmitespara los in' temalosde confianzncomo las de los lmitespara los intemalos dep rediccin ticten cierta curvatura.

es el En dlares, intervalode prediccin $110000 + $33 875o el intervaloqueva de $76 125a que cerparaun solorestaurante seencuentre que $143875.Obsrvese el intervalode prediccin la queel intervalode confianzapara media es ca de un campode 10 000 estudiantes msamplio de que cercade campus 10000 estudiantes. de de las ventas todoslos restaurantes seencuentran la puedeestimarcon msprecisin mediade y queun reflejael hechode que se Estadiferencia y. solo valor individualde mediante comolas estimaciones un mediante intervalode confianza Tantolas estimaciones es precisas el valor de la variableindependiente cuando un intervalo de prediccinson ms y : . En la figura 14.9semuestra forma general los intervalos confianza de los inde de la xp que sonmsanchos' tervalosde prediccin

Mrodos

Orto@

32, Los datossiguientesson los del ejercicio l.

a. b.

de Use la ecuacin(14.23) para estimarla desviacinestndar j'o cuandox : 4. parael valor espeUse la expresin(14.24) para obtenerun intervalo de confianzade 95Vo : 4. radodey cuandox

582

l4 Coptulo

lineolsimple Regresin

c. d.

Use la ecuacin(14.26) paraestimarla desviacinestindarde un valor de y cuando.r : 4. un Use la expresin(14.27) para obener intervalo de prediccin de 95Vopara y cuando x:4

33. Los datos siguientesson los del eiercicio 2.

a. b. c. d.

de Estime la desviacinestndar j,o cuandor = 8. el de Obtengaun intervalo de 95Vode conftanzapara valor esperado y cuandox : 8. de Estime la desviacinestndar un valor individual de y cuandor : 8. Obtengaun intervalo de prediccinde 95Voparay cuandor = 8.

son los del ejercicio 3. 34. Los datossiguientes

Obtengalos intervalosde confianzay de prediccin del 95Vopara x : 12. Explique por qu son diferentes estos dos intervalos.

Aplicociones

orto@

3sEn el ejercicio 18,con los datosde los promediosde calificaciones y los salariosmensualesy j :

SloplngBagg

1790.5+ 581.1. se obtuvo la ecuacinde regresinestimada D un intervalo de 95Vode conftanzapara el salario medio inicial de todos los estudiantes a. cuyo promediofue 3.0. b. D un intervalo de 95Vode predicci para el salariomedio inicial de Joe Heller cuyo promediofue 3.0, (oF) : x y precio ($) = y de 12 sacosde En el ejercicio 10, a partir de los datosde temperatura 36. dormir, fabricadospor Bergansof Noway, se obtuvo la ecuacinde regresinI : 359.2668 - 5 .2772x. Paraestos datoss = 37.9372. sea a. D una estimacinpuntual del precio de un sacode dormir cuya temperatura 30. de b. D un intervalode95Vode confianza parael precio medio de lodos los sacos dormir cuya sea temperatura 30. es c. Supongaque Berganselaboraun nuevo modelo cuya temperatura 30. D un intervalo de prediccinde95Vopara el precio de estenuevo modelo. a d. Explique la diferenciaentre susrespuestas los incisos b) y c).

En el ejercicio 13 se proporcionarondatossobreel ingresobruto ajustadoy el monto de las dede duccionesen las declaraciones impuestos.Los datos se dieron en miles de dlaes.Como la para es ecuacinde regresinestimada ! : 4.68 * O.lx,elmontara