Mar a Merino Maestre Matematika Aplikatua eta Estatistika ......Estatistika datuen bilketaz,...

101

Transcript of Mar a Merino Maestre Matematika Aplikatua eta Estatistika ......Estatistika datuen bilketaz,...

  • Maŕıa Merino Maestre

    Matematika Aplikatua eta Estatistika eta Ikerkuntza Operatiboa

    Zientzia eta Teknologia Fakultatea

    [email protected]

    http://www.ehu.es/mae/html/prof/Maria.html

    Euskara eta Eleaniztasuneko Errektoreordetzaren Sare Argitalpena

    ISBN 978-84-9860-749-9

    http://www.ehu.es/mae/html/prof/Maria.html

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/3

    ESTATISTIKA: R PRAKTIKAK

    5 7 9 11 13 15

    Barra grafikoa (f)0

    24

    68

    1012

    14

    5 7 9 11 13 15

    Grafiko metakorra (F)

    020

    4060

    80

    ● ● ● ● ● ● ● ● ● ●●

    ●●

    ●● ●

    ●●

    ●● ● ● ● ● ● ● ● ● ● ●

    6 8 10 12 14

    0.0

    0.1

    0.2

    0.3

    0.4

    f den

    tsita

    te fu

    ntzi

    oa

    Chi Karratua vs Normal

    ● sqrt(2Chi2n)N(sqrt(2n−1),1)

    ● ● ● ● ● ● ● ● ●

    ● ● ● ● ● ● ● ● ●

    0 5 10 15 20

    0.0

    0.4

    0.8

    F b

    anak

    eta

    funt

    zioa

    ● sqrt{2Chi2_50}N(sqrt(2*50)−1,1)

    Plot of Means

    Datos$espeziea

    mea

    n of

    Dat

    os$a

    ltuer

    a

    6.0

    6.5

    7.0

    7.5

    8.0

    8.5

    9.0

    halopensis laricio pinaster pinea silvestris

    ●●

    ● ●

    1500 2000 2500

    1200

    1400

    1600

    1800

    Erregresio koadratikoa

    Etxearen neurria (oin karratutan)

    Hile

    ko e

    nerg

    ia−

    kont

    sum

    oa (

    Kw

    /h−

    tan)

    ŷ = − 1216 + 2.399x − 0.00045x2

    R2 = 0.9819

    Banakako iragarpen−tartea

    Batezbestekoaren konfiantza−tartea

    p Chartfor akastunak

    Group

    Gro

    up s

    umm

    ary

    stat

    istic

    s

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

    0.05

    0.10

    0.15

    ●●

    ● ●●

    LCL

    UCL

    CL

    Number of groups = 15Center = 0.09829545StdDev = 0.2977137

    LCL is variableUCL is variable

    Number beyond limits = 0Number violating runs = 0

    gaita

    suni

    k ez

    a

    esp.

    des

    orek

    atua

    gere

    ntzi

    an e

    sp. e

    za

    prod

    uzki

    oan

    esp.

    eza

    kaus

    a ez

    ezag

    unak

    best

    e ka

    usa

    batz

    uk

    Pareto Chart for porrotak

    Fre

    quen

    cy

    020

    040

    060

    080

    010

    0012

    0014

    00

    ●●

    0%25

    %50

    %75

    %10

    0%

    Cum

    ulat

    ive

    Per

    cent

    age

  • Aurkibide orokorra

    Hitzaurrea V

    1. Sarrera 1

    1.1. Instalazioa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

    1.2. Datu-baseen irakurketa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

    2. Probabilitate teoria 3

    2.1. Banaketak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    2.2. Probabilitate teoriaren oinarrizko teorema batzuk . . . . . . . . . . . . . . . . . . . . 5

    Autoebaluaziorako ariketak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    3. Estatistika deskribatzailea 9

    3.1. Maiztasun-taulak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    3.2. Estatistikoak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    3.3. Grafikoak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    3.4. Normaltasuna aztertzeko metodo deskribatzaileak . . . . . . . . . . . . . . . . . . . . 14

    4. Konfiantza-tartezko zenbatespena 17

    4.1. Lagin bakar baten konfiantza-tarteak . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    4.1.1. Batezbestekorako konfiantza-tarteak . . . . . . . . . . . . . . . . . . . . . . . 17

    i

  • 4.1.2. Bariantzarako konfiantza-tarteak . . . . . . . . . . . . . . . . . . . . . . . . . 20

    4.2. Lagin birako zenbatespen-tarteak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    4.2.1. Bariantzen zatidurarako konfiantza-tarteak . . . . . . . . . . . . . . . . . . . 21

    4.2.2. Bi batezbestekoen diferentziarako konfiantza-tarteak . . . . . . . . . . . . . . 22

    4.3. Populazio binomialetarako konfiantza-tarteak . . . . . . . . . . . . . . . . . . . . . . 24

    4.3.1. Proportziorako konfiantza-tarteak . . . . . . . . . . . . . . . . . . . . . . . . 24

    4.3.2. Bi proportzioen diferentziarako konfiantza-tarteak . . . . . . . . . . . . . . . 25

    4.4. Laginaren tamaina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    Autoebaluaziorako ariketak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    5. Hipotesi-kontraste parametrikoak 29

    5.1. Erroreak eta laginaren tamaina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    5.1.1. I eta II motako erroreak eta ahalmena . . . . . . . . . . . . . . . . . . . . . . 30

    5.1.2. Laginaren tamaina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    5.2. Lagin bakar baten hipotesi-kontrasteak . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    5.2.1. Batezbestekorako hipotesi-kontrasteak . . . . . . . . . . . . . . . . . . . . . . 33

    5.2.2. Bariantzarako hipotesi-kontrasteak . . . . . . . . . . . . . . . . . . . . . . . . 33

    5.3. Lagin birako hipotesi-kontrasteak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    5.3.1. Bi bariantzen hipotesi-kontrasteak . . . . . . . . . . . . . . . . . . . . . . . . 34

    5.3.2. Bi batezbestekoen hipotesi-kontrasteak . . . . . . . . . . . . . . . . . . . . . . 35

    5.4. Populazio binomialetarako hipotesi-kontrasteak . . . . . . . . . . . . . . . . . . . . . 37

    5.4.1. Proportziorako hipotesi-kontrasteak . . . . . . . . . . . . . . . . . . . . . . . 37

    5.4.2. Bi proportzioen diferentziarako hipotesi-kontrasteak . . . . . . . . . . . . . . 38

    5.5. Batezbestekoak konparatzeko metodo grafikoa . . . . . . . . . . . . . . . . . . . . . . 39

    Autoebaluaziorako ariketak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    ii

  • 6. Hipotesi-kontraste ez-parametrikoak 43

    6.1. Doikuntza-egokitasunerako kontrasteak . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    6.1.1. Pearson-en ji karratu kontrasteak . . . . . . . . . . . . . . . . . . . . . . . . . 43

    6.1.2. Kolmogorov-Smirnov-en kontrastea . . . . . . . . . . . . . . . . . . . . . . . . 44

    6.1.3. Normaltasunerako kontrasteak (Kolmogorov-Smirnov-Lilliefors eta Shapiro-Wilks) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    6.1.4. Normaltasunerako Box-Cox-en transformazioa eta KS testa . . . . . . . . . . 46

    6.2. Independentzia-kontrastea eta homogeneotasun-kontrastea . . . . . . . . . . . . . . . 47

    6.3. Zorizkotasun-kontrastea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    6.4. Populazioak konparatzeko kontrasteak . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    6.4.1. Bi lagin askeren konparaketa . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    6.4.2. Bi lagin askeren baino gehiagoren konparaketa . . . . . . . . . . . . . . . . . 52

    6.4.3. Binakako datuen bi laginen konparaketa . . . . . . . . . . . . . . . . . . . . . 53

    6.4.4. Binakako datuen bi laginen baino gehiagoren konparaketa . . . . . . . . . . . 54

    Autoebaluaziorako ariketak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    7. Erregresioa 55

    7.1. Populazio-eredua proposatzea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    7.2. Ereduaren erabilgarritasuna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

    7.2.1. Doikuntza-egokitasuna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

    7.2.2. Parametroekiko inferentzia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

    7.3. Korrelazioa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    7.4. Diagnosia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

    7.5. Iragarpena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    Autoebaluaziorako ariketak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

    iii

  • 8. Bariantza-analisia 67

    8.1. Faktore bakarreko bariantza-analisia . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    8.2. Faktore biko bariantza-analisia interakzioarekin (n > 1) . . . . . . . . . . . . . . . . 70

    8.3. Faktore biko bariantza-analisia interakziorik gabe (n = 1) . . . . . . . . . . . . . . . 73

    Autoebaluaziorako ariketak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

    9. Kalitatearen kontrol estatistikoa 77

    9.1. Aldagaien grafikoak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    9.2. Atributuen grafikoak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

    9.2.1. Akastun unitateen ehunekoa (p kontrol-grafikoa) . . . . . . . . . . . . . . . . 78

    9.2.2. Akastun unitateen kopurua (np kontrol-grafikoa) . . . . . . . . . . . . . . . . 79

    9.2.3. Batez besteko akatsen kopurua unitateko (u kontrol-grafikoa) . . . . . . . . . 80

    9.2.4. Akatsen kopurua artikuluko (c kontrol-grafikoa) . . . . . . . . . . . . . . . . . 80

    9.3. Paretoren diagrama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

    Autoebaluaziorako ariketak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

    Autoebaluaziorako ariketen emaitzak 83

    Bibliografia 90

    iv

  • Hitzaurrea

    Zalantza barik, arlo anitzetan agertzen den interes handiko irakasgaia da Estatistika. Aregehiago, jakintza-arlo guztietan hartzen da aintzat: Zientziak, Osasun Zientziak, Ingeniaritza etaArkitektura, Gizarte eta Lege Zientziak, Artea eta Giza Zientziak, hain zuzen ere.

    Gaur egun gauza jakina da ezinbestekoa dela softwarea erabiltzea heziketa-prozesuan. Ikasmaterialhonetan, Estatistika lantzeko bederatzi praktika adierazten dira R programaren bidez. R da analisiestatistiko eta grafikoetara bideraturiko programa eta programazio-hizkuntza. R proiektua irekia,doan banatzen da GNU General Public Licence deritzon litzentziak ezarritako irizpideen araberaeta Linux, Windows eta Macintosh sistemetarako aurki daiteke. Aucland Unibertsitateko RossIhaka eta Robert Gentleman irakasleek sortu zuten 1992. urtean; egun, R-ren Garapenerako TaldeNuklear izenarekin ezagutzen diren estatistiko batzuk arduratzen dira programaren banaketaz etagarapenaz. Gero eta maizago erabiltzen ari den programa da, bai irakaskuntza-mailan (ASA sariajaso du), bai ikerkuntzarako, bai enpresa-arloan. Izan ere, sortutako pakete kopurua 2000 bainohandiagoa da, eta bere hazkundea esponentziala izanik. Programari beldurra gainditu ostean, osoerraza da erabiltzeko. Gainera, Rcommander paketea instalatuz programa komertzialen itxura lordaiteke.

    R bibliografia http://www.r-project.org/doc/bib/R-publications.html helbidean kontsultadaiteke; bereziki, merezi du honako dokumentazio honen interesa aipatzea: [1, 4, 6, 8, 10,11, 15, 24, 25]. Nahiz eta Estatistika irakasgaiari buruzko material ugari egon, tamalez,urria da euskarazko bibliografia, bereziki aplikazio informatikoei dagokienez. Materiala azkenikasturteetan osatu dut, Zientzia eta Teknologia Fakultatean Estatistikako irakasle-lanetan aritunaizen bitartean eta Euskara eta Eleaniztasuneko Errektoreordetzaren Sare argitalpenean azaltzenda Estatistika: SPSS praktikak (http://testubiltegia.ehu.es/Estatistika-spss-praktikak)ikasmaterialaren jarraipen moduan. Egitura berbera mantendu da SPSS software komertzialetik Rprograma irekira pasatzeko bidea errazteko. Osatutako materiala lagungarria izan daiteke edozeinfakultate eta eskolatan, Estatistika Deskribatzailearekin zein Inferentzia Estatistikoarekin lotutakoirakasgaietan lantzeko.

    Estatistika datuen bilketaz, antolaketaz eta interpretazioaz arduratzen da. Horretarako, arlo guztiakjorratzen ditu: datu-bilketaren planifikazioatik hasita, esperimentuen diseinua eta laginketan ereparte hartzen du. Iragarpenak egiteko erabil daitezke Estatistikak sortutako ereduak, eta arloaskotan aplikatzen dira. Bere funtsezko teoria, Estatistika Matematikoa izenekoa, Probabilitateteorian oinarritzen da. Hortaz, 2. praktikan kontzeptu batzuk birpasatzen dira, eta teorema

    v

    http://www.r-project.org/doc/bib/R-publications.htmlhttp://testubiltegia.ehu.es/Estatistika-spss-praktikak

  • batzuen emaitzak grafikoen bidez eta esperimentazioaren bidez ulertzen saiatzen da. Laburesanda, Probabilite teoriaren arloan, populazio baten parametroak ezagunak izanda, laginbatzuen probabilitateak kalkulatzen dira. Hala ere, Inferentzia Estatistikoak aurkako norantzadu; lagin batzuen informazioa ezaguna izanik, populazio osorako ondorioak ateratzen saiatzen da.Probabilitate teoria XVII mendean jaio omen zen, zorizko jokoen inguruko Blaise Pascal eta Pierrede Fermat matematikarien arteko posta-trukearekin. Egungo ordenagailuen ondorioz, aurreratuegin da tamaina handiko kalkulu estatistikoa, eta horrek ahalbidetu du eskuz eginezinak zirenmetodoak erabiltzea.

    Populazio bat aztertu nahi denean, askotan, ale guztiak aztertzea posible ez denez, populazioosoaren azpimultzo adierazgarri bat hartzen da. Laginaren informazioa kontutan hartuta,bi motatako analisi estatistikoak egin daitezke. Lehenengoa, Estatistika Deskribatzailea da,3. praktikan lantzen dena. Datuen laburpena egiteko erabiltzen da, adibidez, esperimentubaten emaitzak zabaltzeko. Datuen deskribapena bai grafikoki bai zenbaki bidez egin daiteke;batezbestekoak, desbideratze estandarrak, ehunekoak eta maiztasunak, besteak beste. Bigarrena,Inferentzia Estatistikoa dugu, 4. praktikatik aurrera zeharkatzen dena. Jasotako datuak zorizkobehaketak direnean, populazio osorako inferentziak egiteko erabiltzen dira. Batzuetan, datuetanoinarrituta zehaztutako hipotesia baztertzen den ala ez aztertzen da (hipotesi-kontrasteak 5., 6.eta 8. praktiketan aztertzen dira), beste batzuetan, datuen hainbat ezaugarri zenbatetsi nahi dira(4. praktikan konfiantza-tarteak agertzen dira), datuen arteko erlazioak eta ereduak korrelazioareneta erregresioaren bidez aztertzen dira (ikusi 7. praktika). Kalitatearen kontrol estatistikoa egitekografiko interesgarri batzuk lantzen dira 9. praktikan. Estatistika Aplikatua osatzen dute EstatistikaDeskribatzaileak eta Inferentzia Estatistikoak.

    Estatistikak oso gutxitan ematen du bai edo ez motako erantzuna. Interpretazioetan agertzendiren ondorioak, maiz, adierazgarritasun-maila edo p-balioaren terminoetan eman ohi dira. Hitzbatzuk gakoak dira Estatistika irakasgaian: hipotesi nulua, errorea eta konfiantza-tartea, bestebatzuen artean. Hipotesi nulutzat zera hartzen da: kausa bezala proposatzen denak eraginikez izatea aztertutako aldagaian. Adibidez, adierazgarriak ez izatea botika batek eta plazeboaksortutako emaitzen arteko diferentziak. Baina, agian, epaiketarena da adibide onenetariko bat.Hipotesi nuluak dio errugabea dela epaitutakoa, eta hipotesi alternatiboak, berriz, erruduna dela.Hipotesi nulua ez da baztertzen, errugabetasunaren aurkako ebidentzia nahikorik ez badago.Eta bestalde, hipotesi nuluak baztertzeak ez du bermatzen errugabetasuna, baizik eta onartzekoebidentzia nahikorik ez dagoela. Beraz, epaimahaiak ez du onartzen errugabea izatea, baiziketa ez duela baztertzen. Hipotesi nulua gezurrezkoa denean, hura baztertzeko probabilitatea,neurtzen du testaren ahalmenak, eta hura ez baztertzeko probabilitateari II motako erroreaderitzo, beta edo gezurrezko negatiboa. Adibideetan, botikak ez duela eraginik edo epaitutakoaerrugabea dela ondorioztatzea, hori gezurra izanik. Bestalde, hipotesi nulua egiazkoa denean,hura baztertzeko probabilitatea I motako errorearen bidez neurtzen da, eta alfa edo gezurrezkopositiboa deritzo. Adibideetan, botikak eragina duela edo epaitutakoa erruduna dela ondorioztatzea,hori gezurra izanik. Konfiantza-tarteen bidez, populazio-parametroaren eta lagin-zenbatespenarenarteko distantzia neurtzen da. Askotan, 95eko konfiantza-maila jotzen da. Formalki, 95ekokonfiantza-tartea bi balio dira, non baldintza berberenpean esperimentua eta analisia errepikatzenbadira, aldien 95etan populazio-parametroa tartearen barruan baita.

    Ikasmaterial honek, Estatistikaren oinarrizko kontzeptuak jorratzen ditu R softwarearen bidez.

    vi

  • Bederatzi gairi buruzko bederatzi praktika antolatu dira. Praktika bakoitzaren hasieran, laburki,helburuak azaldu dira; geroago, kontzeptuak birpasatu dira hainbat adibideren laguntzaz; eta,amaieran, autoebaluaziorako ariketak proposatu dira; azkenik, praktiketan zehar proposatutakoautoebaluaziorako ariketen emaitzak azaldu dira. Ikasmaterialaren bukaeran, bibliografia dago.Honako hau da edukiaren laburpena:

    1. praktika. R programaren sarrera (instalazioa barne) eta datu-baseen erabilerari buruzkoazalpenak topa ditzakegu.

    2. praktika. Probabilitate teoriaren kontzeptu batzuk birpasatzen dira; esate baterako, zorizkoaldagai jarraien eta diskretuen oinarrizko banaketen oinarrizko funtzioak, zorizko laginaksortzea, teorema batzuk zenbakizkoki eta grafikoki adieraztea.

    3. praktika. Estatistika Deskribatzailea jorratzen da: alde batetik, maiztasun-taulak adieraztekoera, estatistikoen kalkulua eta grafiko batzuk egiteko bidea.

    4. praktika. Hasiera ematen dio Inferentzia Estatistikoari konfiantza-tarteen kalkulua eta inter-pretazioa garatuz, populazio-parametro garrantzitsuenak zenbatesteko, erroreak adieraziz.

    5. praktika. Hipotesi-kontraste parametrikoak zeharkatzen dira, hau da, batezbestekoak, propor-tzioak eta bariantzak aztertzeko eta konparatzeko testak. Bi motatako erroreen kalkulua etalaginaren tamainarena aztertzen dira, eta baita grafikoki konparatzeko bideak ere.

    6. praktika. Hipotesi kontraste ezparametriko batzuen erabilera birpasatzen da. Doikuntza-egokitasunerako probak (Pearson-en ji karratu probak eta normaltasuna aztertzeko testak);independentzia- eta homogeneotasun-probak; zorizkotasun-probak; eta, azkenik, populazioakkonparatzeko probak (lagin bakar baten kasuan, bi lagin edo lagin gehiago daudenean).

    7. praktika. Korrelazioa eta erregresioa gaiak lantzen dira. Alde batetik, erregresio bakuna: linealaedo linealizatu ahal direnak eta bestalde, erregresio anizkoitza. Parametroak zenbatestekoera, eredu osoa eta koaldagai bakoitzaren adierazgarritasuna aztertzea, diagnosia egitea,iragarpenenak zenbatestea, grafikoki adieraztea erregresio kurba eta iragarpenak.

    8. praktika. Bariantza-analisia garatzen da. Horretarako faktore bakarra eta bi faktore erabiltzendira. Bariantzen berdintasunerako probak, ANOVA izeneko taulak eta konparaketa anizkoit-zak egiteko metodoak azaltzen dira.

    9. praktika. Kalitate-kontrolaren oinarrizko grafikoak kalkulatzeko eta interpretatzeko bideaikusten da.

    Azkenik, eskerrak eman nahi dizkiet UPV/EHUko Ekonometria eta Estatistika Saileko FernandoTusell Palmer katedradunari, R ikasteko motibazioa bultzatzeagatik; SAE/HELAZ zerbitzuari etaJorge Virto Moreno irakasleari, Unibertsitateko Irakasleen Irakas-prestakuntzako Introducción a R2010eko ikastaroagatik; eta, bereziki, Euskara eta Eleaniztasuneko Errektoreordetzari, emandakolaguntzagatik, ikasmaterialgintzako proiektu honen hizkuntza egokitzeko.

    Maŕıa Merino Maestre

    Leioan, 2012ko uztailean.

    vii

  • viii

  • 1. R praktika

    Sarrera

    R da analisi estatistiko eta grafikoetarako programa eta programazio-hizkuntza. Proiektu irekia da,eta doan banatzen dena GNU GPLk (General Public Licence) ezarritako irizpideen arabera.

    Helburua

    Lehenengo praktika honek helburu bikoitza du. Alde batetik, R programa instalatzeko eta hastekooinarrizko pausuak azalduko dira (Rcommander paketea barne) eta beste aldetik, datu-baseenirakurketa komentatuko da.

    1.1. Instalazioa

    R open source code motako software estatistikoa instalazeko, jo honako helbide honetara

    http://cran.es.r-project.org

    eta adibidez, Windows sistema operatiboan instalatzeko, jarraitu honako pausu hauek (bertsioberririk baldin badago, jaitsi azkena):

    windows→base →download R.2.12.0 for windows.

    Linux edo Macintosh sistema operatiboetan instalatzeko aukera ere badago.

    Komandoak zuzen sartzeko kasuetan, hemendik aurrera, honako adierazpen honen bidez aipatukoditugu ikasmaterial honetan (eta .R hedapeneko script batean gorde daitezke jarraibideak):

    > komandoak

    1

    http://cran.es.r-project.org

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/2

    Komando interesgarri batzuk:

    library(): pakete erabilgarriak erakusteko

    data(): datu erabilgarriak erakusteko

    install.packages() eta update.packages(): paketeak instalatzeko edo eguneratzeko

    getwd() eta setwd(bidea): direktorioa zein den jakiteko eta aldatzeko

    ls() eta rm(): objektuen zerrenda ikusteko eta ezabatzeko

    help (izena): laguntza izenari buruz

    rm(list=ls()): sortutako aldagai guztiak ezabatzea

    Laguntza bilatzeko weborrialde batzuk:

    Quick R: http://www.statmethods.net/

    J. Baronen laburpena: http://www.psych.upenn.edu/%7Ebaron/refcard.pdf

    T. Shorten laburpena: http://cran.r-project.org/doc/contrib/Short-refcard.pdf

    V. Ricciren erregresioaren laburpena:http://cran.r-project.org/doc/contrib/Ricci-refcard-regression.pdf

    R seek: http://www.rseek.org/

    Gainera, Rcommander izeneko paketea ere erabiliko dugu; pakete horrek aukera ematen dukomandoak jakin gabe analisi batzuk gauzatzeko.

    Rcommander paketea instalatzeko:

    Paquetes→Instalar Paquetes→Spain(Madrid)→Rcmdr.

    Prozesu hori behin baino ez da egin behar. Hortik aurrera, R programa irekitzen dugun bakoitzean,beharrezkoa da paketea kargatzea R commander interfaze grafikoa erabiltzeko:

    Paquetes→Cargar paquete →Rcmdr

    1.2. Datu-baseen irakurketa

    R programa erabiltzen duten datu-fitxategiek Rda hedapena dute. Hala ere, gai dira hedapenanitzeko fitxategiak irekitzeko: testua, URL, SPSS, Minitab, STATA, Excel, Access, dbase, besteakbeste. Horretarako, honako pausu hauek jarraitu daitezke Rcommander interfazetik:

    Datos →Importar datos →datos desde ...

    http://www.statmethods.net/http://www.psych.upenn.edu/%7Ebaron/refcard.pdfhttp://cran.r-project.org/doc/contrib/Short-refcard.pdfhttp://cran.r-project.org/doc/contrib/Ricci-refcard-regression.pdfhttp://www.rseek.org/

  • 2. R praktika

    Probabilitate teoria

    Helburua

    Praktika honen jomuga da Probabilitate teorian landutako kontzeptu batzuk jorratzea. Adibidez,zorizko aldagaien probabilitate legea, edo dentsitate funtzioa, banaketa funtzioa, pertzentilakkalkulatzea edo zorizko laginak sortzea, grafikoki irudikatzea, teorema batzuen aplikazioak zenbakizeta grafikoki egiaztatzea.

    2.1. Banaketak

    Zorizko aldagai jarraien kasuan, honako aukera hauek topatuko ditugu Rcommanderen bidez:

    Distribuciones →Distribuciones continuas →{Distribución Normal, t, chi Cuadrado,F, exponencial, uniforme, ...} →{cuantiles, probabilidad, gráfica de la distribución,muestra}

    Banaketa bakoitzean, lau motatako emaitzak atera daitezke:

    pertzentilak (cuantiles): α ∈ (0, 1) probabilitate guztietarako pα estatistikoa ematendigu, P (X ≤ pα) = α betetzen duena, baldin cola a la izquierda hautatzen badugu edoP (X > pα) = α betetzen duena, cola a la derecha hautatzekotan.

    banaketa-funtzioa (probabilidad): a ∈ R zenbaki guztietarako banaketa-funtzioa(probabilitate metatua) ematen digu, P (X ≤ a), baldin cola a la izquierda hautatzenbadugu edo P (X > a), cola a la derecha hautatzekotan.

    f edo F-ren grafikoa (gráfica de la distribución): behin banaketaren parametroakfinkatuta, f dentsitate-funtzioaren edo F banaketa-funtzioaren grafikoa ematen digu.

    3

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/4

    lagina (muestra): behin banaketa eta bere parametroa(k), lagin kopurua eta laginentamaina finkatuta, ezaugarri horiekin zoriz sortutako lagina(k) ematen di(zki)gu.

    Zorizko aldagai diskretuen kasuan, honako aukera hauek eskaintzen dira:

    Distribuciones →Distribuciones discretas →{Distribución Binomial, Poisson, ...}→{cuantiles, probabilidad acumulada, probabilidad, gráfica de la distribución, muestra}

    Banaketa bakoitzean, bost motatako emaitzak atera daitezke: aurreko guztiak eta, gainera,probabilitate kasuan bi aukera daude:

    F banaketa funtzioa (probabilidad acumulada) F (a) = P (X ≤ a) cola a laizquierda-ri dagokio, edo P (X > a) cola a la derecha-ri dagokio.

    f probabilitate legea (probabilidad) f(a) = P (X = a) emaitza

    Honako taula honetan laburbiltzen da R programak erabiltzen duen notazio estandarra:

    Aurrizkia Atzizkia Atzizkia

    q pertzentilak binom Binomiala norm Normalad prob-legea/dent-fun poisson Poisson chisq Chi karratuap banaketa-funtzioa unif Uniformea t Student-en tr z.l. sortzea exp Esponentziala f Fisher-Snedeccor-en F

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/5

    2.2. Probabilitate teoriaren oinarrizko teorema batzuk

    Ikus ditzagun, grafikoki, lau banaketen hurbilketa ezagunenetarikoak.

    • Baldin n > 50 eta p < 0, 1 badira, Bin(n, p) ≈ P(np).

    Adibidez, ikus dezagun Bin(50, 0, 01) ≈ P(0, 5), f probabilitate legeak eta F banaketa funtzioakkonparatuz. Osatu honako aldagai hauek:

    ald1

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/6

    ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●

    ●●

    ●●

    ●●

    ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

    0 10 20 30 40 50

    0.00

    0.04

    0.08

    f pro

    b−le

    gea/

    dent

    −fu

    n

    Binomial vs Normal

    ● Bin(50,0.5)N(25,sqrt(12.5))

    ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●

    ●●

    ●●

    ●● ●

    ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

    0 10 20 30 40 50

    0.0

    0.4

    0.8

    F b

    anak

    eta

    funt

    zioa

    ● Bin(50,0.5)N(25,sqrt(12.5))

    Adibidez, ikus dezagun Bin(50, 0,5) ≈ N (25,√

    12,5).Osatu aldagaiak eta eraiki grafikoa:

    ald2

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/7

    Autoebaluaziorako ariketak

    Ariketa 2.1 Aseguru-etxe bateko langile batek bost aseguru-poliza saldu die adin berdineko bostgizabanakori. Taula aktuarialen arabera, adin horretako gizabanako batek 30 urte baino gehiagobizitzeko probabilitatea 3/5ekoa da. Kalkula itzazu (a) 30 urte barru, gutxienez hiru pertsona bizirikegoteko probabilitatea eta (b) 30 urte barru, gehienez bi pertsona bizirik egoteko probabilitatea.

    Ariketa 2.2 Gasolina-zerbitzugune batera iristen diren automobil kopurua, batez beste, orduko204koa da. Baldin zerbitzugune horrek gehienez minutuko hamar automobil zerbitza baditzake,kalkula ezazu minutu zehatz batean zerbitza daitezkeenak baino automobil gehiago iristekoprobabilitatea.

    Ariketa 2.3 Populazio batean % 0,004koa da 12.000 euro baino gehiago kobratzen duen gizabanakokopurua. Kalkula ezazu, aztertutako 5.000 gizabanakoren artean, gehienez bi pertsonak aipatutakokantitatea kobratzeko probabilitatea, kontsultatutako guztiek erantzuten dutela jorik.

    Ariketa 2.4 Fabrikatze-prozesu batean, ezaguna da eguneroko akastun unitate kopurua 10parametroko poisson banaketari darraiola. Kalkula ezazu (a) 150 egunetan akastun unitate kopurua1.480 baino handiagoa izateko probabilitatea, eta (b) kopuru hori 1.480 eta 1.520 artean egotekoa.

    Ariketa 2.5 Izan bedi X : N (1500, 38, 7) zorizko aldagaia. (a) Zein da aldagaiaren balioa nonbanaketa-funtzioa 0,5 baita? (balio horri mediana esaten zaio) eta (b) Zein da aldagaiaren balioanon banaketa-funtzioa 0,25 baita? (balio horri 1. koartila esaten zaio).

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/8

  • 3. R praktika

    Estatistika deskribatzailea

    Helburua

    Praktika honen xedea da jasotako datu esperimentalak aztertzea, laburtzea eta deskribatzea,metodo grafiko eta zenbakizkoen bidez. Bai elkartu gabeko datuak bai datu elkartuak erabiliz,honako hauek egiten ikasiko dugu: (1) Maiztasun-taulak, (2) Grafikoak eta (3) Estatistikoak.

    Adibidea 3.1 Birus baten latentzia-aldia ikertzeko, 90 txitari inokulatu zitzaien birusa. Bakoitza-rengan gaixotasunaren lehenengo sintomak agertu arte pasatutako egun kopurua aztertu zen. Beraz,X = egun kopurua izeneko aldagaia da. Honako hauek ziren lortutako datuak:

    8 10 8 14 16 9 12 13 9 12 12 10 15 8 65 9 11 13 5 9 12 13 8 14 8 5 14 6 137 8 12 12 8 6 8 9 9 15 8 9 8 13 79 12 8 6 9 14 13 8 12 9 11 8 16 10 6

    10 13 6 5 14 12 14 6 11 12 10 12 6 7 106 15 7 9 5 9 7 10 7 10 8 11 11 14 15

    Kalkula itzazu maiztasun-taula, estatistikoak eta grafiko batzuk.

    Birusaren aldagaia definitzeko bide bat da, birusa izeneko aldagaian datu guztiak sartzea.

    birusa

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/10

    3.1. Maiztasun-taulak

    Lehenik, table komandoarekin f maiztasun absolutuak lortzen dira:

    > taula taula f n k h F H names(F) names(H) for(i in 1:k){

    + for(j in 1:i){

    + F[i]

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/11

    Rcommander erabiliz, aldagai kualitatiboen f maiztasun absolutuak eta h erlatiboak eska daitezke:

    Estadı́sticos →Resúmenes →Distribución de frecuencias

    3.2. Estatistikoak

    Rcommander erabiltzen badugu,

    Estadı́sticos →Resúmenes →Conjunto de datos activos

    jarraituz, minimoa, 1. koartila, mediana, batezbestekoa, 3. koartila eta maximoa, hots,{min, q1, Me, x, q3, max} estatistikoak, lortzen dira; eta

    Estadı́sticos →Resúmenes →Resúmenes numéricos

    jarraituz, batezbestekoa, lagin-kuasidesbideratze estandarra, aldakuntza-koefizientea, asimetria-koefizientea, kurtosia, minimoa, 1. koartila, mediana, 3. koartila, maximoa eta laginaren tamaina,hots, {x, sn−1, cv, g1, g2, p0, p25, p50, p75, p100, n} estatistikoak.

    fBasics izeneko paketea kargatzen badugu,

    Paquetes→Cargar paquete →fBasics,

    erabil dezakegu basicStats komandoa estatistikoen zerrenda luzeago bat lortzeko:

    > library(fBasics)

    > basicStats(Datos)

    birusa

    nobs 90.000000

    NAs 0.000000

    Minimum 5.000000

    Maximum 16.000000

    1. Quartile 8.000000

    3. Quartile 12.000000

    Mean 9.877778

    Median 9.000000

    Sum 889.000000

    SE Mean 0.313184

    LCL Mean 9.255487

    UCL Mean 10.500068

    Variance 8.827591

    Stdev 2.971126

    Skewness 0.196245

    Kurtosis -1.012506

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/12

    Oraindik, RI, S2n, Sn eta ν estatistikoak falta dira, baina erraz lor daitezke:

    n

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/13

    Gráficas →Gráficas de tallos y hojas

    Gráficas →Diagrama de caja

    n: 90

    5 5 | 00000

    14 6 | 000000000

    20 7 | 000000

    34 8 | 00000000000000

    (12) 9 | 000000000000

    44 10 | 00000000

    36 11 | 00000

    31 12 | 00000000000

    20 13 | 0000000

    13 14 | 0000000

    6 15 | 0000

    2 16 | 00

    68

    1012

    1416

    Kutxa−diagrama

    Datu elkartuak direnean histograma, maiztasun-poligonoa eta poligono metakorra egin daitezke,

    tarteak

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/14

    3.4. Normaltasuna aztertzeko metodo deskribatzaileak

    Adibidea 3.2 Honako taula honetan, 35 egunean zehar lurralde batean botatzen diren zuhaitzenkopuruak adierazten dira.

    200 300 100 100 0 200 0 0 200 0 0 3000 400 0 0 400 0 1.000 300 0 0 0 00 0 0 0 100 0 300 0 200 200 100

    Kalkula itzazu maiztasun-taula, eta estatistikoak, eta azter ezazu banaketaren normaltasuna.

    Aldagaiaren balioak banan-banan ez sartzeko aukera duzu; horretarako bi aldagai eratu behar dira:aldagaiaren balioak (xi) eta maiztasunak (fi), hain zuzen ere. Datuak inportatu ostean, aldagaiaeraiki behar da estatistikoak eskuratzeko:

    > aldagaia

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/15

    Median 0.000000

    Sum 4400.000000

    SE Mean 33.891289

    LCL Mean 56.838900

    UCL Mean 194.589671

    Variance 40201.680672

    Stdev 200.503568

    Skewness 2.463352

    Kurtosis 7.680952

    Normaltasuna aztertzean, RIs kalkula dezakegu eta honako grafiko hauei begiratu: histograma,probabilitate normalaren qqnorm grafikoa eta kutxa-diagrama.

    par(mfrow=c(1,3),cex.main = 2.0,cex.lab=1.0,bty="l")

    tarteak

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/16

  • 4. R praktika

    Konfiantza-tartezko zenbatespena

    Helburua

    Praktika honen bidez, populazio-parametroak zenbatesteko konfiantza-tarte batzuk kalkulatzekogehien erabiltzen diren bost probak ikusiko ditugu (bariantza ezezaguna daukan populazionormalak, laginaren tamainak edozein izanda, edo populazio binomialak, laginaren tamainakhandiak izanda). Horretarako, Rcommander erabiliz, Estadı́sticos sakatu eta batezbestekoak(Medias), proportzioak (Proporciones) eta bariantzenak (Varianzas) aukeren artean erabakidaiteke.

    Test t para una muestra: I1−αµ

    Test t para muestras independientes: I1−αµ1−µ2 (populazio askeak izanik).

    Test t para datos relacionados: I1−αµ1−µ2 (binakako datuak).

    Test de proporciones para una muestra (binomial exacto): I1−αp

    Test F para dos varianzas: I1−ασ21/σ

    22

    Gainera, bariantzarako, bi proportzioen diferentziarako konfiantza-tarteak eta laginaren tamainarenkalkulua programatuko ditugu.

    4.1. Lagin bakar baten konfiantza-tarteak

    4.1.1. Batezbestekorako konfiantza-tarteak

    Adibidea 4.1 Hiri txiki batean, ur-erabilerari buruzko ikerkuntza batean, 25 etxebizitzatako zorizkolagina ateratzen da. Banaketa normalari darraion X aldagaia aztertuko da: asteko erabilitako ur

    17

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/18

    litro kopurua. Zoriz aukeraturiko aste batean, honako balio hauek lortu ziren:

    175 185 186 118 158 150 190 178 137 175180 200 189 200 180 172 145 192 191 181183 169 172 178 210

    Informazio hori erabiliz, zenbatets itzazu µ, σ2 eta σ. Lor ezazu µ-rako % 90eko konfiantza-tartea.Hiriko ur-depositua aski handia da asteko 160 litroko batez besteko kontsumoa baimentzeko. Usteal duzu hirian ur faltaren arazorik egon daitekeenik? Azal ezazu erantzuna, lortutako konfiantza-tartean oinarriturik.

    I0,90µ tartea kalkulatu behar dugu. Ura izeneko aldagaiaraen 25 datuak sartu edo inportatu ostean,Rcommander erabiltzekotan, jarraitu honako pausu hauei:

    Estadı́sticos → Medias → Test t para una muestra → Media poblacional ! = mu0.Hipótesis nula: mu=[0.0]. Nivel de confianza [0.90] → Aceptar

    > t.test(ura$ura, alternative=’two.sided’, mu=0.0, conf.level=.90)

    One Sample t-test

    data: ura$ura

    t = 42.2638, df = 24, p-value < 2.2e-16

    alternative hypothesis: true mean is not equal to 0

    90 percent confidence interval:

    168.6451 182.8749

    sample estimates:

    mean of x

    175.76

    Hipotesi-kontraste parametrikoen gaiarekin erlazionatuta daude t estatistikoa, df (degree freedom)askatasun-graduak, p-value p-balioa eta alternative hypothesis lerroa; hemendik aurrera ezditugu aurkeztuko bi lerro horiek, 5. praktikan azalduko baitira. Populazioaren batez besteko ur-litro kopurua I0,90µ = (168, 6451, 182, 8749) tartean dago, % 90eko konfiantza-mailarekin; beraz,ur-depositua (160 litrokoa) ez da nahikoa izango.

    Adibidea 4.2 Honako taula honetan, adierazi dira ekintza bat egiteko enpresa bateko langileendenbora-tarteak (segundotan). Demagun populazio normalak direla.

    Emakumezkoa 103 94 110 87 98Gizonezkoa 97 82 123 92 175 88 118

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/19

    a) Kalkula ezazu batezbestekoaren puntu-zenbatespena eta % 90 mailako konfiantza-tartea.

    b) Kalkula itzazu gizonezkoenak eta emakumezkoenak.

    c) Kalkula ezazu % 90eko bariantzen zatidurarako konfiantza-tartea. Zer esan daiteke?

    d) Kalkula ezazu berriro populazioaren batezbestekoen arteko diferentziarako % 90 mailakokonfiantza-tartea. Zein ondorio atera dezakegu?

    (a) denbora eta sexua (1=emakumezkoa, 2=gizonezkoa) aldagaiek denbora izeneko datu-baseaosatzen dute. Datu guztiak sartu/inportatu ostean, jarraitu aurreko pausoei denbora izeneko aldagaikuantitatiborako. Ohartu programak kontuan hartuko duela etiketen zenbakien ordena, diferentziakedo zatidurak aztertzerakoan.

    > t.test(denbora$denbora, alternative=’two.sided’, mu=0.0, conf.level=.90)

    One Sample t-test

    data: denbora$denbora

    90 percent confidence interval:

    92.54004 118.62662

    sample estimates: mean of x 105.5833

    Batezbestekorako puntu-zenbatespena eta % 90eko konfiantza-tartea lortu ditugu, µ̂ = 105, 5833eta I0,90µ = (92, 54004, 118, 62662), non µ denbora-tartearen batezbestekoa baita.

    (b) Osa ditzagun emakumezkoen eta gizonezkoen batezbestekorako puntu-zenbatespenak eta %90eko konfiantza-tarteak. Horretarako, bihur dezagun sexua aldagai kualitatibo (factor):

    Datos →Modificar variables del conjunto de datos activos →Convertir variablenumérica en factor →Asignar nombres a los niveles. Nuevo nombre[sexua]

    →1[emakumezkoa] 2[gizonezkoa]

    > denbora$sexua

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/20

    Beraz, µ̂1 = 98,40 seg eta µ̂2 = 110,71 seg.

    Orain, emakumezkoen konfiantza-tartea lortzeko, lehenik datu aktiboak filtratu behar dira:

    Datos →Conjunto de datos activo →Filtrar el conjunto de datos activo →Incluir todas las variables. Expresión de seleccion [sexua==1].

    Nombre del nuevo conjunto de datos[den.em]

    Soilik emakumezkoen datuak daudenez aktibatuta, t testa eska daiteke haien zenbatespen-tartealortzeko. Era berean, gizonezkoen tartea kalkulatu daiteke, baina, datuak filtratu baino lehenago,jatorrizko datuak aktibatu behar dira:

    Datos →Conjunto de datos activos →Seleccionar conjunto de datos activo →denbora

    > den.em t.test(den.em$denbora, alternative=

    ’two.sided’, mu=0.0, conf.level=.90)

    One Sample t-test

    data: den.em$denbora

    90 percent confidence interval:

    90.07214 106.72786

    sample estimates:

    mean of x

    98.4

    I0,90µ1 = (90, 7214, 106, 72786), emakumezkoenbatez besteko denbora zenbatesteko % 90ekokonfiantza-tartea da.

    > den.giz t.test(den.giz$denbora, alternative=

    ’two.sided’, mu=0.0, conf.level=.90)

    One Sample t-test

    data: den.giz$denbora

    90 percent confidence interval:

    87.07556 134.35301

    sample estimates:

    mean of x

    110.7143

    I0,90µ1 = (87, 07556, 134, 35301) gizonezkoen batezbesteko denbora zenbatesteko % 90eko konfiantza-tartea da.

    Baina, ondoriozta dezakegu sexuak denboran eragina duela? Horretarako, beharrezkoa da lagin-birako zenbatespen-tarteak kalkulatzea (ikusi 4.2.1 atalean (c) ebazpena eta 4.2.2 atalean (d)-rena).

    4.1.2. Bariantzarako konfiantza-tarteak

    Adibidea 4.3 Loditasunari buruzko ikerkuntza-lana egin da 12 urte baino gutxiago dituzten umeen-gan. Oso lodi dauden 100 umek osaturiko lagina aukeratu da, eta loditasuna agertu zeneko adinaaztertu da. Laginaren batezbestekoa eta desbideratze estandarra 4 eta 1,5 urtekoak dira, hurrenezhurren. Loditasunaren hasierako adina banaketa normalari darraiola suposatzen da. Kalkula itza-zu umeen loditasunaren hasierako adinaren bariantzarako eta desbideratze estandarrerako % 95ekokonfiantza-tarteak.

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/21

    Programa dezagun bariantzarako zenbatespen-tartea, I1−ασ2

    =

    ((n−1)s2χ2α/2;n−1

    , (n−1)s2

    χ21−α/2;n−1

    )dela kontuan

    hartuta:

    #I_sigma

    > n km a m sn sn2 s2 s2 # Bariantzaren zenbatespen-puntuala

    [1] 2.272727

    > behe goi c(behe,goi) # Bariantzarako konfiantza-tartea

    [1] 1.752036 3.067021

    > c(sqrt(behe),sqrt(goi)) # Desbiderapenerako konfiantza-tartea

    [1] 1.323645 1.751291

    Izan ere, I0,95σ2

    = (1, 75, 3, 07) eta I0,95σ = (1, 32, 1, 75).

    4.2. Lagin birako zenbatespen-tarteak

    Amai dezagun 4.2 adibidea: I0,90µ1−µ2 tartea kalkulatu behar dugu, non datuak askeak baitira. Tarteegokia aukeratzeko, lehenik populazio-bariantzen arteko erlazioa aztertu behar da.

    4.2.1. Bariantzen zatidurarako konfiantza-tarteak

    R programak hiru aukera ematen dizkigu: F, Bartlett eta Levene-ren testak, hain zuzen ere. Beraz,

    Estadı́sticos → Varianzas → F, Bartlett edo Levene

    (c) F testa erabiliko dugu bariantzen arteko erlazioa aztertzeko:

    > var.test(denbora ~ sexua, alternative=’two.sided’, conf.level=.90,data=denbora)

    F test to compare two variances

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/22

    data: denbora by sexua

    90 percent confidence interval:

    0.01624629 0.45394809

    sample estimates: ratio of variances 0.07365542

    Izan ere, I0,90σ21/σ

    22

    = (0, 01624629, 0, 45394809) denez, 1 tartean ez dagoenez, orduan σ21 6= σ22ondorioztatzen da % 90eko konfiantza-mailarekin. Are gehiago, I0,90

    σ21/σ22⊂ (0, 1) denez, σ21 < σ22

    emaitza dugu.

    Bariantzen berdintasuna aztertzeko Prueba de Levene ere erabil daiteke.

    > leveneTest(denbora$denbora, denbora$sexua, center=mean)

    Levene’s Test for Homogeneity of Variance (center = mean)

    Df F value Pr(>F)

    group 1 3.8873 0.07694 .

    10

    ---

    Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

    0,07694 < α = 0,10 denez, bariantzak desberdinak direla ondorioztatuko dugu.

    4.2.2. Bi batezbestekoen diferentziarako konfiantza-tarteak

    (d) Behin bariantza ezezagunen arteko erlazioa aztertuta, kalkula dezagun batezbestekoendiferentziarako konfiantza-tartea:

    Estadı́sticos → Medias → Test t para muestras independientes → Grupo[sexua]Variable explicada[denbora]. Hipótesis alternativa[bilateral]. Nivel de

    confianza[0.90]. ¿suponer varianzas iguales? [no] → Aceptar

    > t.test(denbora~sexua, alternative=’two.sided’, conf.level=.90,

    + var.equal=FALSE, data=denbora)

    Welch Two Sample t-test

    data: denbora by sexua

    90 percent confidence interval:

    -36.42670 11.79813

    sample estimates:

    mean in group emakumezkoa mean in group gizonezkoa

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/23

    98.4000 110.7143

    Horrela, I0,90µ1−µ2 = (−36, 42670, 11, 79813) da batezbestekoen diferentziarako % 90eko konfiantza-mailako zenbatespen-tartea. 0 ∈ I0,90µ1−µ2 dagoenez, ezin da ondorioztatu batezbesteko bat besteabaino hobea denik; ezin da baztertu sexuen arteko batez besteko denboren berdintasuna.

    Adibidea 4.4 Espektofotometriaren bidez, tomate freskoen eta ontziraturikoen tomateen nahitaez-ko elementuak ikertu dira. Horretarako, kobre kopurua konparatu da tomate freskoetan eta tomateberberetan, haiek ontziratu ondoren. Datuak honako hauek dira:

    1 2 3 4 5 6 7 8 9 10Freskoa 0,066 0,079 0,069 0,076 0,071 0,087 0,071 0,073 0,067 0,062Latakoa 0,085 0,088 0,091 0,096 0,093 0,095 0,079 0,078 0,065 0,068

    Kalkula ezazu populazioaren batezbestekoen arteko diferentziarako % 98 mailako KT. Zein ondorioatera dezakegu? Ondoriozta daiteke diferentzia adierazgarririk dagoela? Eta diferentzia 0,003 dela?Demagun populazioak normalak direla.

    I0,98µ1−µ2 tartea kalkulatu behar dugu, non binakako datuak baitaude. Freskoa eta latakoa aldagaiektomate datu-basea osatzen dute, datuak sartu/inportatu ostean:

    Estadı́sticos → Medias → Test t para datos relacionados → Primeravariable[freskoa] Segunda variable[latakoa]. Hipótesis alternativa[bilateral].

    Nivel de confianza[0.98]. → Aceptar

    > t.test(tomate$freskoa, tomate$latakoa, alternative=’two.sided’,

    + conf.level=.98, paired=TRUE)

    Paired t-test

    data: tomate$freskoa and tomate$latakoa

    98 percent confidence interval:

    -0.019189074 -0.004210926

    sample estimates: mean of the differences -0.0117

    d = −0, 0117 da batezbestekoen diferentziaren zenbatespen puntuala. Populazioen kobrekopuruaren batezbestekoen arteko diferentzia I0,98µD = I

    0,98µ1−µ2 = (−0, 019189074, − 0, 004210926)

    tartean dago, % 98ko konfiantza-mailarekin; beraz, µ1 − µ2 < 0, hau da, ondoriozta daiteketomate freskoen kobre kopurua lataraturikoena baino baxuagoa dela % 98ko konfiantza-mailarekin.Gainera, −0, 003 ∈ I0,98µD dagoenez, ondoriozta daiteke diferentzia 0,003 izatea.

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/24

    4.3. Populazio binomialetarako konfiantza-tarteak

    4.3.1. Proportziorako konfiantza-tarteak

    Adibidea 4.5 Suzirien aireratze-instalazio berri bat ikertzen ari dira. Dagoen sisteman, p = 0, 8 dajaurtiketa arrakastatsuen probabilitatea. Sistema berriarekin 40 jaurtiketa esperimental egiten dira,horietatik 34 arrakastatsuak. Kalkula ezazu % 95eko p-ren konfiantza-tartea. Ondoriozta daitekesistema berria hobea dela?

    I0,95p tartea kalkulatu behar dugu.

    Proba binomial zehatza erabil dezakegu edo hurbilketa normala, laginaren tamaina handia denean.Jaurtiketa izeneko aldagaia (1:arrakasta, 0:porrota) eraiki ostean:

    > #Binomial zehatza

    > binom.test(x=34,n=40,p=0.8)

    Exact binomial test

    data: 34 and 40

    number of successes = 34, number of trials = 40, p-value = 0.5541

    alternative hypothesis: true probability of success is not equal to 0.8

    95 percent confidence interval:

    0.7016473 0.9428977

    sample estimates: probability of success 0.85

    Beraz, arrakasta-proportzioaren zenbatespen-tartea I0,95p = (0, 7016, 0, 9429) da eta 0, 8 arrakasta-proportzioa bere barnean dago % 95eko konfiantza-mailarekin. Beraz, ezin da ondorioztatu sistemaberria hobea denik.

    Laginaren tamaina handia denean, binomiala gutxigorabehera normal estandarra denez, propor-

    tziorako honako konfiantza-tarte hau I1−αp =

    (p̂∓ zα/2

    √p̂q̂n

    )programa dezakegu:

    #Hurbilketa normala

    > jaurtiketa km a n p p # Proportzioaren zenbatespen-puntuala

    [1] 0.85

    > errorea behe goi

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/25

    > c(behe,goi) # Proportzioarako konfiantza-tartea

    [1] 0.7393 0.9607

    Beraz, arrakasta-proportzioaren zenbatespen-tartea I0,95p = (0, 7393, 0, 9607) da, eta 0, 8 arrakasta-proportzioa bere barnean dago % 95eko konfiantza-mailarekin.

    4.3.2. Bi proportzioen diferentziarako konfiantza-tarteak

    Adibidea 4.6 Artikulu mota bat saltzen duen enpresa batek baieztatzen du A markakoak Bmarkakoak baino gehiago saltzen direla, eta diferentzia % 8koa dela. 200 bezeroren artean 42knahiago dute A markako artikulua, eta 150 bezeroren artean 18k B markakoa. Kalkula ezazu %94ko konfiantza-tartea, bi marken proportzioen arteko diferentziarako. Erabaki ezazu ea baliozkotzathar daitekeen % 8ko diferentziaren baieztapena.

    I0,94p1−p2 tartea kalkulatu behar dugu. Laginaren tamainak handiak badira, hurbilketa normala erabil

    daiteke. Diferentziarako konfiantza-tartearen adierazpena I1−αp1−p2 =(p̂1 − p̂2 ∓ zα/2

    √p̂1q̂1n1

    + p̂2q̂2n2

    )dela kontuan hartuta, programa dezagun:

    # Hurbilketa normala

    > x1 n1 x2 n2 km a p1 p2 d c(p1,p2,d) # p1, p2, (p1-p2)-ren zenbatespen-puntualak

    [1] 0.21 0.12 0.09

    > errorea behe goi c(behe,goi) # (p1-p2)-ren konfiantza-tartea

    [1] 0.01634826 0.16365174

    Beraz, arrakasta-proportzioen diferentziarako zenbatespen-tartea I0,94pA−pB = (0, 01635, 0, 1637) daeta orduan pA > pB ondorioztatzen da % 94ko konfiantza-mailarekin.

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/26

    4.4. Laginaren tamaina

    R programarekin, oso erraza da laginaren tamaina kalkulatzea.

    Adibidea 4.7 1.000 etxetako zorizko lagin batean, ikusi da 228tan butanoa erabiltzen dela.Zein izan behar da laginaren tamaina, % 99ko konfiantza-mailarekin, laginaren proportzioa eta

    populazioaren proportzioaren arteko errorea % 5 baino txikiagoa izateko? n =z2α/2p̂q̂

    e2laginaren

    tamainaren adierazpena dela kontuan hartuta:

    > km a x n p q e n ceiling(n)

    [1] 468

    Autoebaluaziorako ariketak

    Ariketa 4.1 10 tamainako lagin batean, honako hauek dira zuhaitzen diametroak (cm-tan): 97,117, 140, 78, 99, 148, 108, 135, 126, 121. Kalkula ezazu zuhaitzen batez besteko diametroa, %95eko konfiantza-mailarekin, populazioaren banaketa normala dela suposatuz.

    Ariketa 4.2 Enpresa batek, instalazioak gehitzeko beharra ikertzeko asmoz, jasotzea espero dueneskaria zenbatetsi nahi du. Horretarako, ohiko bezeroen artean hamaika hautatzen ditu, eta honakotaula honetan adierazten dira azken urtean haiek eskatutako unitate kopuruak:

    unitate kopurua (xi) 1000 1002 1004 1006 1008 1010 1012

    bezero kopurua (fi) 1 2 1 3 1 2 1

    a) Demagun eskaria banaketa normalari darraiola; laginean oinarrituta, ondoriozta ezazu ea %95eko konfiantza-tartean posiblea den µ = 1005 unitate izatea.

    b) Demagun eskaria banaketa normalari darraiola; laginean oinarrituta, ondoriozta ezazu ea %95eko konfiantza-tartean posiblea den σ2 5 baino txikiagoa izatea.

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/27

    Ariketa 4.3 SPSS programako world95.sav fitxategia csv formatuarekin gorde da. Irekiworld95.csv fitxategia R programarekin; ohartu nola adierazten den faltako balioa, banatzeko ikurraeta hamartarrak adieraztekoa.

    a) Onar daiteke herrialdeen artean, jaiotza-tasaren eta heriotza-tasaren arteko desberdintasunnabarmenik dagoenik?

    b) Eskualde ekonomikoa kontuan hartuta, ondoriozta daiteke Asian eta Latinoamerikan jaiotza-tasadesberdina dela? (Adibidez, eraiki eskualde biak adierazteko aldagai bitarra)

    c) Asia eta Latinoamerika artean, onar daiteke jaiotza-tasaren eta heriotza-tasaren artekodiferentzia aldatzen dela? (Eraiki beharrezko diferentzia aldagaia.)

    Ariketa 4.4 1.000 etxetako zorizko lagin batean, ikusi da 228tan butanoa erabiltzen dela. Kalkulaezazu butanoa erabiltzen duten etxe-proportzioaren % 99 mailako konfiantza-tartea.

    Ariketa 4.5 Probintzia batean zentral nuklear bat eraikitzearen aldeko iritzia ezagutzeko, honakodatu hauek aurkitu ziren: kostaldeko 400 biztanleren artean 168 zentralaren alde daude; barrualdeko500 biztaleren artean, berriz, 145 dira aldekoak. Kalkula ezazu % 95eko konfiantza-tartea kostaldeaneta barrualdean, bizatanleen zentral nuklearraren aldeko biztanle-proportzioen arteko diferentziara-ko. Zein ondorio atera dezakegu?

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/28

  • 5. R praktika

    Hipotesi-kontraste parametrikoak

    Helburua

    Praktika honetan, hipotesi-kontraste parametrikoen erroreak eta laginaren tamainaren kalkuluakprogramatzeaz gain, Rcommander erabiliz bost proba ikusiko ditugu. Lehenengo hiru probakbatezbestekoak aztertzeko kasu orokorrenak dira (bariantza ezezaguna daukaten populazionormalak, laginaren tamainak edozein izanda, edo populazio binomialak, laginaren tamainakhandiak izanik); laugarren proba binomial zehatza da; bostgarren proba, bariantzak konparatzekokontrastea.

    Test T para una muestra: H0 : µ = µ0

    Test T para muestras independientes: H0 : µ1 = µ2 (pop. askeak).

    Test T para datos relacionados: H0 : µ1 = µ2 (binakako datuak).

    Test de proporciones para una muestra (binomial exacto): H0 : p = p0

    Test F para dos varianzas: H0 : σ21 = σ

    22

    Gainera, bariantzarako eta bi proportzioen diferentziarako kontrasteak programtuko ditugu.Azkenik, grafikoki konparatzeko bidea ikusiko dugu.

    5.1. Erroreak eta laginaren tamaina

    R erabiliz, erraza da kalkulatzea α I motako errorea, β II motako errorea, 1 − α konfiantza-maila, 1 − β ahalmena eta n laginaren tamaina. Horretarako, haien definizioetatik abiatuz,formulak besterik ez ditugu inmplementatu behar. Izan ere, α = P (H0 baztertu | H0 egiazkoa),

    29

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/30

    1 − α = P (H0 onartu | H0 egiazkoa), β = P (H0 onartu | H0 gezurrezkoa), 1 − β =P (H0 baztertu | H0 gezurrezkoa).

    5.1.1. I eta II motako erroreak eta ahalmena

    I eta II motako erroreak, konfiantza-maila zein ahalmena kalkula daitezke, kodea idatzi ondoren.

    Adibidea 5.1 Enpresa bateko kafe-makina automatikoak zerbitzu bakoitzean ematen duen likidokopurua, gutxi gorabehera, banaketa normalari darraion aldagaia da, batezbestekoa 200 ml etadesbideratze estandarra 15 ml izanik. Aldizka, makina berraztertu egiten da bederatzi kaferen laginbaten batez besteko likido kopurua neurtuz. Baldin laginaren batezbestekoa 191 ml eta 209 ml tarteanbadago, makinak ondo funtzionatzen duela onartzen da; bestela µ 6= 200 ml onartzen da.

    a) Kalkula ezazu I motako errorea egiteko probabilitatea, baldin µ = 200 ml.

    b) Kalkula ezazu II motako errorea egiteko probabilitatea, baldin µ = 215 ml.

    (a) α = P (H0 baztertu | H0 egia) ⇔ 1 − α = P (191 ≤ X ≤ 209 | µ = 200) = [X : N (200, 5)] =P (−9/5 ≤ Z ≤ 9/5) = P (Z ≤ 9/5)−P (Z ≤ −9/5) eta (b) β = P (H0 onartu | H1 egia) = P (191 ≤X ≤ 209 | µ = 215) = [X : N (215, 5)] = P (6/5 ≤ Z ≤ 24/5) = P (Z ≤ 24/5)− P (Z ≤ 6/5):

    > mu0 mu1 sigma n sd behe goi # alfa (I motako errorea)

    eta konfiantza-maila

    > z1 z2 km km

    [1] 0.9281394

    > alfa alfa

    [1] 0.07186064

    > # beta (II motako errorea)

    eta ahalmena

    > z1 z2 beta beta

    [1] 0.1150689

    > ahalmena ahalmena

    [1] 0.8849311

    Adibidea 5.2 H0 ez baztertzeko probabilitatea H0 egiazkoa denean OY ardatzean kokatzen bada,non OX ardatzean dagozkien µ balio posible batzuk kokatzen baitira, bikote guztiak kurba bateanlotuz, eragiketa-kurba karakteristikoa izenekoa lortzen da: OC kurba. Kurba horiek maiz erabiltzendira aplikazio industrialetan hipotesi-kontrastearen doitasuna bisualki aztertzeko. Aurreko adibideakontuan hartuta, kalkula itzazu H0 ez baztertzeko probabilitatea honako µ balio hauentzat: 184, 188,192, 196, 200, 204, 208, 212 eta 216. Egin ezazu OC kurba.

    1 − α = P (191 ≤ X ≤ 209 | µ = µ0) = [X : N (µ0, s/√n)] = P (191−µ0

    s/√n≤ Z ≤ 209−µ0

    s/√n

    ), non

    µ0 ∈ {184, 188, 192, 196, 200, 204, 208, 212, 216}:

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/31

    muset

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/32

    n

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/33

    5.2. Lagin bakar baten hipotesi-kontrasteak

    5.2.1. Batezbestekorako hipotesi-kontrasteak

    Ebatz ezazu 4.1 adibidea 0,10eko esangura-mailako hipotesi-kontrastea planteatuz. Hiriko ur-depositua aski handia bada, asteko 160 litroko batez besteko kontsumoa baimentzeko, uste al duzuhirian ur-falta arazoren bat egon daitekeenik?

    Alde bateko hipotesi nulua H0 : µ0 ≤ 160 egiteko aukera dago. Ura izeneko aldagaiaren 25 datuaksartu edo inportatu ostean, Rcommander erabiltzekotan, jarraitu honako pauso hauei:

    Estadı́sticos → Medias → Test t para una muestra → Media poblacional > mu0.Hipótesis nula: mu=[160]. Nivel de confianza [0.90] → Aceptar

    t.test(Datos$ura, alternative=’greater’, mu=160, conf.level=.90)

    One Sample t-test

    data: Datos$ura

    t = 3.7897, df = 24, p-value = 0.0004474

    alternative hypothesis: true mean is greater than 160

    90 percent confidence interval:

    170.2796 Inf

    sample estimates: mean of x 175.76

    t estatistikoa, df (degree freedom) Student-en askatasun-graduak, p-value p-balioa etaalternative hypothesis H1 : µ > 160 dira. x = 175,76 ∈ (170,2796,∞) denez, edo balioki-deki, p < α = 0, 10 denez, populazioaren batez besteko ur-litro kopurua 160 baino handiagoa izateaonartzen da % 10eko esangura-mailarekin; beraz, ur-depositua (160 litrokoa) ez da nahikoa izango.

    5.2.2. Bariantzarako hipotesi-kontrasteak

    Adibidea 5.5 Autoko bateriak ekoizten dituen fabrikatzaile batek baieztatu du baterien erdibizitza0,9 urtetako desbideratze estandarra duen banaketa normalari darraiola. Baldin 10 tamainakozorizko lagin batean desbideratze estandarra 1,2 urtetakoa bada, 0,05 esangura-mailarekin onardaiteke σ > 0, 9 urte?

    H0 : σ ≤ 0, 9 hipotesi nulua kontrastatzeko:

    > sigma0 n

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/34

    > sn a s chi2p chi2p # Estatistikoa

    [1] 17.77778

    > c(0,qchisq(1-a,df=n-1)) #Onarpen eskualdea

    [1] 0.00000 16.91898

    > p p #p-balioa (eskuinetiko aldebatekoa)

    [1] 0.03784101

    χ2p = 17,77778 estatistikoa S0 = (0, 16,91898) onarpen-eskualdean ez dagoenez, edo baliokidekip-balioa 0,03784101 < α denez, H1 : σ > 0, 9 hipotesia onartzen da % 5eko esangura-mailarekin.

    5.3. Lagin birako hipotesi-kontrasteak

    5.3.1. Bi bariantzen hipotesi-kontrasteak

    Ebatz itzazu 4.2 adibidearen (c) eta (d) atalak dagozkien hipotesi-kontrasteak erabiliz.

    (c) denbora eta sexua (1=emakumezkoa, 2=gizonezkoa) aldagaiek denbora izeneko datu-baseaosatu behar dute, aurreko praktikan bezala. Lehenik populazio-bariantzen arteko erlazioa aztertubehar da, hipotesi nulua H0 : σ

    21 = σ

    22 da, eta R programak hiru aukera ematen dizkigu: F, Bartlett

    eta Levene-ren testak. Beraz:

    Estadı́sticos → Varianzas → F, Bartlett edo Levene

    F testa apunteetan ikasitako metodoari dagokio:

    > var.test(denbora ~ sexua, alternative=’two.sided’, conf.level=.90,data=denbora)

    F test to compare two variances

    data: denbora by sexua

    F = 0.0737, num df = 4, denom df = 6, p-value = 0.02468

    alternative hypothesis: true ratio of variances is not equal to 1

    Izan ere, p < α⇒ σ21 6= σ22 ondorioztatzen da % 10eko esangura-mailarekin.

    Bariantzen berdintasuna aztertzeko Prueba de Levene ere erabil daiteke.

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/35

    > leveneTest(denbora$denbora, denbora$sexua, center=mean)

    Levene’s Test for Homogeneity of Variance (center = mean)

    Df F value Pr(>F)

    group 1 3.8873 0.07694 .

    10

    ---

    Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

    0, 07694 < α = 0, 10 denez, bariantzak desberdinak direla ondorioztatuko dugu.

    5.3.2. Bi batezbestekoen hipotesi-kontrasteak

    (d) Behin barientzen arteko erlazioa aztertuta, batezbestekoen diferentzia nulua den ala ez kontrastadezakegu 4.2 adibidean:

    Estadı́sticos → Medias → Test t para muestras independientes → Grupo[sexua]Variable explicada[denbora]. Hipótesis alternativa[bilateral]. Nivel de

    confianza[0.90]. ¿suponer varianzas iguales? [no] → Aceptar

    > t.test(denbora~sexua, alternative=’two.sided’, conf.level=.90,

    + var.equal=FALSE, data=denbora)

    Welch Two Sample t-test

    data: denbora by sexua

    t = -0.9638, df = 7.187, p-value = 0.3664

    alternative hypothesis: true difference in means is not equal to 0

    Horrela, p > α = 0,10 denez, ezin da ondorioztatu batezbesteko bat bestea baino hobea denik; ezinda baztertu sexuen arteko batez besteko denboren berdintasuna.

    • Egin dezagun 4.4 adibidea, bi hipotesi-kontraste planteatuz diferentzia adierazgarriak direnala ez aztertzeko eta hipotesi-kontraste bakarra diferentzia 0,003 den ala ez ikertzeko. Hipotesinulua H0 : µ1 = µ2. Binakako datuen tomate datu-basea osatu ondoren (freskoa eta latakoaaldagaiekin),

    Estadı́sticos → Medias → Test t para datos relacionados → Primeravariable[freskoa] Segunda variable[latakoa]. Hipótesis alternativa[bilateral].

    Nivel de confianza[0.98]. → Aceptar

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/36

    > t.test(tomate$freskoa, tomate$latakoa, alternative=’two.sided’,

    + conf.level=.98, paired=TRUE)

    Paired t-test

    data: tomate$freskoa and tomate$latakoa

    t = -4.4079, df = 9, p-value = 0.001701

    alternative hypothesis: true difference in means is not equal to 0

    p < α = 0, 02 denez, ondoriozta daiteke populazioen kobre kopuruaren batezbestekoen artekodiferentzia nabarmena dela % 2ko esangura-mailarekin.

    Orain, azter dezagun honako hipotesi nulu hau: H0 : µ1 ≥ µ2.

    t.test(tomate$freskoa, tomate$latakoa, alternative=’less’, conf.level=.98,

    + paired=TRUE)

    Paired t-test

    data: tomate$freskoa and tomate$latakoa

    t = -4.4079, df = 9, p-value = 0.0008504

    alternative hypothesis: true difference in means is less than 0

    p < α = 0, 02 denez, ondoriozta daiteke tomate freskoen kobre kopurua lataraturikoena bainobaxuagoa dela % 2ko esangura-mailarekin.

    Orain, azter dezagun honako hipotesi nulu hau: H0 : µ1 + 0,003 ≤ µ2. Lehenik, X ′1 = X1 + 0,003aldagai berria, freskoa003 izenekoa, kalkulatu behar da:

    >tomate$freskoa003 α = 0, 02 denez, ondoriozta daiteke ontziraturikoen batez besteko kobre kopurua tomatefreskoena baino gutxienez 0,003 altuagoa dela % 2ko esangura-mailarekin.

    Gainera, 5.2.1 atalean ikusitakoa ere aplika daiteke, diferentzia aldagaia erabiliz eta 0,003 balioraµ0 finkatuz.

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/37

    5.4. Populazio binomialetarako hipotesi-kontrasteak

    5.4.1. Proportziorako hipotesi-kontrasteak

    • Egin ditzagun 4.5 adibideari lotutako hiru hipotesi-kontrasteak. Jaurtiketa izeneko aldagaia(1:arrakasta, 0:porrota) eraiki ostean, Rcommander erabil daiteke:

    Estadı́sticos → Proporciones → Test de proporciones para una muestra → Binomialexacto

    > Table # (a) H0: p=0.8

    > binom.test(rbind(.Table), alternative=’two.sided’, p=.8, conf.level=.95)

    Exact binomial test

    data: rbind(.Table)

    number of successes = 34, number of trials = 40, p-value = 0.5541

    alternative hypothesis: true probability of success is not equal to 0.8

    95 percent confidence interval:

    0.7016473 0.9428977

    sample estimates:

    probability of success

    0.85

    (a) Alde biko kontrasteari dagokionez, p-balioa p = 0, 4292 > α = 0, 05 denez, H0 ez daerrefusatzen; hots, p = 0, 8. Ezin da baztertu sistema berriaren arrakasta % 80koa denik.

    > # (b) H1: pbinom.test(rbind(.Table), alternative=’less’, p=.8, conf.level=.95)

    number of successes = 34, number of trials = 40, p-value = 0.8387

    alternative hypothesis: true probability of success is less than 0.8

    95 percent confidence interval:

    0.000000 0.932599

    (b) Ezkerraldetiko alde bateko kontrasteari dagokionez, p-balioa p = 0, 2146 > α = 0, 05 denez, H1baztertzen da; hots, p 6> 0, 8. Ezin da esan sistema berria hobea denik.

    > binom.test(rbind(.Table), alternative=’greater’, p=.8, conf.level=.95)

    > # (c) H1: p>0.8

    number of successes = 34, number of trials = 40, p-value = 0.2859

    alternative hypothesis: true probability of success is greater than 0.8

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/38

    95 percent confidence interval:

    0.7252555 1.0000000

    (c) Eskuinaldetiko alde bateko kontrasteari dagokionez, p-balioa p = 0, 7854 > α = 0, 05 denez, H1baztertzen da; hots, p 6< 0, 8. Ezin da esan sistema berria txarragoa denik.

    Laginaren tamaina handia denean, ontzat ematen da hurbilketa normala. Horretarako, honakoprograma hau erabil dezakegu, ondorio berberak lortuz:

    > jaurtiketa n p0 p zp zp

    [1] 0.7905694

    > # H0: p=p0 pbalioa=2P(Z>|zp|)

    > p.bal.aldebi print("H0: p=p0, p-balioa:")

    [1] "H0: p=p0, p-balioa:"

    > p.bal.aldebi

    [1] 0.4291953

    > # H1: p p.bal.ezker

    [1] 0.7854023

    > # H1: p>p0 pbalioa=P(Z>zp)

    > p.bal.eskuin print("H1: p>p0, p-balioa:")

    [1] "H1: p>p0, p-balioa:"

    > p.bal.eskuin

    [1] 0.2145977

    Ikusten denez, ondorio berberak lortzen dira.

    5.4.2. Bi proportzioen diferentziarako hipotesi-kontrasteak

    Egin dezagun 4.6 adibidea hipotesi-kontraste egokia erabiliz. Kontrastatu nahi dugun hipotesi nuluaH0 : p1 − p2 = 0,08 da,

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/39

    > x1 n1 x2 n2 km p1 p2 d0 zp zp

    [1] 0.2553631

    > # H0: p1-p2=d0 pbalioa=2P(Z>|zp|)

    > p.bal.aldebi p.bal.aldebi

    [1] 0.7984427

    Interpretazioa: zp = 0, 2554 eta p − balioa = 0, 7984 > α = 0, 06 denez, H0 ez da errefusatzen;hots, p1 − p2 = 0, 08. Hau da, ezin da baztertu % 6ko esangura-mailarekin A markako saldutakoartikulu-proportzioaren eta B markakoenaren arteko diferentzia % 8koa denik.

    H0 : p1− p2 ≤ 0, 08 hipotesi nulua duen kontrastearen p-balioa: p = P (Z > zp) = 122P (Z > |zp|) =0, 2554/2 > α. Beraz, ezin da p1 − p2 > 0, 08 onartu.

    H0 : p1− p2 ≥ 0, 08 hipotesi nulua duen kontrastearen p-balioa: p = P (Z < zp) = 1−P (Z > zp) =1− 0, 2554/2 > α. Beraz, ezin da p1 − p2 < 0, 08 onartu.

    5.5. Batezbestekoak konparatzeko metodo grafikoa

    Bi laginen batezbestekoak grafikoki konparatzeko haien kutxa-diagramak erabil ditzakegu.

    Adibidea 5.6 Lur mota berberean hogei zuhaitz landatu ziren, eta zuhaitz bakoitzak jasotakoeguzki- eta ur-kantitatea berbera jaso zuen. Landatzean, zuhaitzen erdiak ez zuen nitrogenorik jaso(kontrol moduan) eta beste erdiak bai. 140 egun igaro ondoren, honako hauek izan ziren enborrenpisuen balioak (gramotan). Egin ezazu kontraste grafikoa enborren batez besteko pisuak konparatzeko,nitrogenoa jaso ez zutenen eta jaso zutenen artean (jo dezagun banaketa normalak zirela).

    Nitrogeno gabe 0,32 0,53 0,28 0,37 0,47 0,43 0,36 0,42 0,38 0,43Nitrogenoarekin 0,26 0,43 0,47 0,49 0,52 0,75 0,79 0,86 0,62 0,46

    Rcommander erabiliz, datuak inportatu nahi baditugu, komenigarria da nitrogenoa izenekoaldagai kuantitatiboa eta ezbai izeneko aldagai kualitatiboa adieraztea.

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/40

    Gráficas → Diagrama de cajas → Variable[nitrogeno] → Gráfica por grupos[ezbai]→ Aceptar

    Bestela:

    nit.ez

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/41

    Ariketa 5.4 (a) Onar al daiteke iragazkia [filter] hautatua eta ezhautatua izateko probabilitateaberdina dela? (b) Eta iragazkia ezhautatua izateko probabilitatea % 30 baino txikiagoa dela? (c) Etairagazkia ezhautatua izateko probabilitatea % 20 baino handiagoa dela?

    Ariketa 5.5 Onar al daiteke AEBn eta Europan saldutako autoen artean, iragazkia hautatuaizateko probabilitatea berdina dela? Zein herrialdetan da gertagarriagoa?

    Ariketa 5.6 Ebatz ezazu 4.2 adibidea grafikoki.

    Ariketa 5.7 Ebatz ezazu 4.4 adibidea grafikoki.

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/42

  • 6. R praktika

    Hipotesi-kontraste ez-parametrikoak

    Helburua

    Praktika honetan, hipotesi-kontraste ez-parametriko mota batzuk kalkulatzeko bidea aurkeztenda: (1) doikuntza-egokitasunerako probak, (2) independentzia- eta homogeneotasun-probak, (3)zorizkotasun-probak eta (4) populazioak konparatzeko probak.

    6.1. Doikuntza-egokitasunerako kontrasteak

    6.1.1. Pearson-en ji karratu kontrasteak

    • H0 : (p1, p2, . . . , pk) = (p01, p02, . . . , p0k) hipotesi nulua kontrastatzeko proba.

    Adibidea 6.1 Mendel-en legeak esperimentalki egiaztatu nahi ditugu. Horretarako, 500 landaregurutzatu ziren, eta teoriaren arabera, lore gorri, arrosa, hori eta zuriko landare kopuruek, hurrenezhurren, proportzionalak izan beharko lukete 8, 12, 10 eta 20 zenbakiekin. Lorturiko datuak 70, 126,96 eta 208 izan ziren, hurrenez hurren.

    Hipotesi nulua H0 : (p1, p2, p3, p4) = (0,16, 0,24, 0,20, 0,40) da.

    > lore.beh prop0 chisq.test(lore.beh,p=prop0)

    Chi-squared test for given probabilities

    data: lore.beh

    X-squared = 2.03, df = 3, p-value = 0.5662

    43

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/44

    χ2p = 2, 03 estatistikoa da eta p − balioa = 0, 5662 da. Interpretazioa: p > α = 0, 05 denez, H0onartzen da.

    Adibidea 6.2 Honako taula honetan urmael batetik ateratako 100 laginen organismo kopuruaadierazten da. Froga ezazu datu horiek Poisson banaketa batetik aterata daudela.

    Organismo kopurua 0 1 2 3 4 5 6 7

    Lagin kopurua 15 30 25 20 5 4 1 0

    Hipotesi nulua H0 : X = P(λ̂) da.

    λ̂ = 1, 86 zenbatetsi ostean, kalkulatu eta metatu itxarondako probabilitateak, behar den kasuetan.

    > n k org.beh org lambda prop0 prop0[8] org.itx org.itx[5] org.beh[5] org.itx.met org.beh.met prop0.met chisq.test(org.beh.met,p=prop0.met)

    Chi-squared test for given probabilities

    data: org.beh.met

    X-squared = 1.1404, df = 4, p-value = 0.8878

    χ2p = 1, 1404 estatistikoa da eta p − balioa = 0, 8878 da. Interpretazioa: p > α = 0, 05 denez, H0onartzen da. Parametro bat zenbatetsi denez, askatasun-graduak df = 3 izan beharko lirateke, etap− balioa =1-pchisq(1.1404,3)= 0, 7673

    6.1.2. Kolmogorov-Smirnov-en kontrastea

    • Kolmogorov-Smirnov-en kontrastearekin, ez da beharrezkoa klaseen bilketa itxarondako maizta-sunak txikiak direnean.

    Egin dezagun 6.2 adibidea metodo hau erabiliz.

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/45

    > ks.test(org,dist=pois,lambda)

    Aviso en ks.test(org, dist = pois, lambda) :

    cannot compute correct p-values with ties

    Two-sample Kolmogorov-Smirnov test

    data: org and lambda

    D = 0.55, p-value = 0.9255

    alternative hypothesis: two-sided

    Interpretazioa: p > α = 0, 05 denez, H0 onartzen da, hots, X = P(1, 86).

    6.1.3. Normaltasunerako kontrasteak (Kolmogorov-Smirnov-Lilliefors eta Shapiro-Wilks)

    Adibidea 6.3 Kontrasta ezazu honako datu hauek banaketa normaletik ateratakoak direnekohipotesia: 20, 22, 24, 30, 31, 32, 38.

    Kolmogorov-Smirnov-Lilliefors-en kontrastea egiteko nortest paketea instalatu behar da.

    > x library(nortest)

    > lillie.test(x)

    Lilliefors (Kolmogorov-Smirnov) normality test

    data: x

    D = 0.1858, p-value = 0.6577

    Kontraste honen estatistikoa 0, 1858 da eta p-balioa= 0, 6577. Beraz, ezin da baztertu aldagaiarennormaltasuna.

    Shapiro-Wilks-en kontrastea egiteko:

    > shapiro.test(x)

    Shapiro-Wilk normality test

    data: x

    W = 0.9478, p-value = 0.7096

    Kontraste horren estatistikoa 0, 9478 da eta p-balioa= 0, 7096. Beraz, ezin da baztertu aldagaiarennormaltasuna.

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/46

    6.1.4. Normaltasunerako Box-Cox-en transformazioa eta KS testa

    Adibidea 6.4 Demagun 1974. urteko per capita errenta aztertu nahi dugula. Datuak honako taulahonetan adierazten dira:

    xi 55 65 75 85 95 105 115 125 135fi 2 8 12 8 6 5 3 1 5

    Banaketa normala dela ondoriozta daiteke? Ezezko kasuan, bilatu transformazio egoki batnormaltasuna lortzeko.

    Lehenik, histograma eraikiko dugu.

    xi

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/47

    Azkenik, K-S kontrastearen p-balioak kalkulatuko ditugu:{H0 : X(λ) ≈ N (xX(λ), sX(λ))H1 : X(λ) 6≈ N (xX(λ), sX(λ))

    ks.test(data.p05,"pnorm",mean(data.p05),sd(data.p05))

    ks.test(data.0,"pnorm",mean(data.0),sd(data.0))

    ks.test(data.m05,"pnorm",mean(data.m05),sd(data.m05))

    ks.test(data.m10,"pnorm",mean(data.m10),sd(data.m10))

    ks.test(data.m20,"pnorm",mean(data.m20),sd(data.m20))

    Honako hauek dira emaitzak:

    X(0,5) = 2(√X − 1) ⇒ p = 0,1219

    X(0) = lnX ⇒ p = 0,1608X(−0,5) = −2(1/

    √X − 1) ⇒ p = 0,2262

    X(−1,0) = −(1/X − 1) ⇒ p = 0,3327X(−2,0) = −0,5(1/X2 − 1) ⇒ p = 0,2743

    (6.1)

    Kasu guztietan ezin da baztertu normaltasuna, eta p − balio handiena λ = −1 Box-Cox-entransformazioari dagokio, grafikoki bat datorrena.

    6.2. Independentzia-kontrastea eta homogeneotasun-kontrastea

    Adibidea 6.5 Urin gastrikoaren azidotasun-maila desberdinen (baxua: aklorhidria edo hipoklorhi-dria; eta altua: normal edo hiperklorhidria) eta gaixotasun motaren (ultzera gastrikoa eta minbizia)arteko mendekotasunik dagoen aztertu nahi dugu. Lorturiko emaitzak honako 2 × 4 kontingentzia-taula honetan adierazten dira. Kontrasta ezazu, azidotasun gastrikoaren eta gaixotasun-motarenarteko independentzia, % 1-eko esangura-mailarekin.

    X / Y Aklorhidria Hipoklorhidria Normal Hiperklorhidria

    Ultzera gastrikoa 3 7 35 9Minbizia 22 2 6 0

    Oharra: e22 eta e24 itxarondako maiztasunak 5 baino txikiagoak direnez, beste taula berri bat eratubehar da. Taula berri hori eratzeko, lehenengo zutabea bigarrenarekin (azidotasun-maila baxua) etalaugarren zutabea hirugarrenarekin (azidotasun-maila altua) bilduko ditugu.

    Datuak bildu eta gero, 2x2 kontingentzia-taulan adieraziko dira. Hipotesi nulua H0 : azidotasun-maila askea da gaixotasunarekiko. Rcommander erabiliz:

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/48

    Estadı́sticos ⇒ Tablas de contingencia ⇒ Introducir y analizar una tabla de

    doble entrada10 44

    24 6. Calcular porcentajes: porcentajes totales. Test de

    hipótesis: Test de independencia Chi cuadrado. Imprimir las frecuencias esperadas

    > .Table rownames(.Table) colnames(.Table) totPercents(.Table) # Percentage of Total

    baxua altua Total

    u. gastrikoa 11.9 52.4 64.3

    minbizia 28.6 7.1 35.7

    Total 40.5 59.5 100.0

    > .Test .Test

    Pearson’s Chi-squared test

    data: .Table

    X-squared = 30.2576, df = 1, p-value = 3.783e-08

    > .Test .Test

    Pearson’s Chi-squared test with Yates’ continuity correction

    data: .Table

    X-squared = 27.7595, df = 1, p-value = 1.374e-07

    > .Test$expected # Expected Counts

    baxua altua

    u. gastrikoa 21.85714 32.14286

    minbizia 12.14286 17.85714

    Interpretazioa: p < α = 0, 05 denez, H0 errefusatzen da, hots, mendekoak dira.

    Adibidea 6.6 EAEn egindako azterketa soziologiko batean, ikertu nahi dute galdera batenerantzunak probintziaka banatzen direnetz. Taulan agertzen den maiztasun-banaketa lortu zen. Onardaiteke erantzuna probintziaren mende dagoela?

    A B G

    Alde 11 13 9Kontra 32 28 27Abstentzioa 7 9 14

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/49

    Adibide honetan datuak 3x3 kontingentzia-taulak agertzen dira eta ez da beharrezkoa datuakbiltzea. Hipotesi nulua H0 : erantzuna eta probintzia askeak izatea da.

    > .Table rownames(.Table) colnames(.Table) totPercents(.Table) # Percentage of Total

    Araba Bizkaia Gipuzkoa Total

    alde 7.3 8.7 6.0 22

    kontra 21.3 18.7 18.0 58

    abstentzioa 4.7 6.0 9.3 20

    Total 33.3 33.3 33.3 100

    > .Test .Test

    Pearson’s Chi-squared test

    data: .Table

    X-squared = 3.81, df = 4, p-value = 0.4323

    > .Test$expected # Expected Counts

    Araba Bizkaia Gipuzkoa

    alde 11 11 11

    kontra 29 29 29

    abstentzioa 10 10 10

    χ2p = 3, 81 estatistikoa da, p−balioa = 0, 4323 da. Interpretazioa: p > α = 0, 05 denez, H0 onartzenda, hots, askeak dira.

    Ondorio berbera ateratzen da Fisher-en proba zehatzarekin, p < α baita.

    > fisher.test(.Table)

    Fisher’s Exact Test for Count Data

    data: .Table

    p-value = 4.15e-08

    alternative hypothesis: true odds ratio is not equal to 1

    95 percent confidence interval:

    0.01544100 0.19646798

    sample estimates:

    odds ratio

    0.05957888

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/50

    6.3. Zorizkotasun-kontrastea

    Adibidea 6.7 Inkesta batean 60 pertsona hautatu dira, (1) gazteak eta (2) helduak honelaordenatuta agertuz. Ondoriozta daiteke zoriz hautatu direla?:

    H G H H H G G G H H G H H H H G G G G H G H G G H H H G G H

    G G G G H H G H H G G G G H H G H H H H G G H H G H G G H H

    Adibide honetan, kontrastatzeko aldagaia kualitatibo bitarra da. H0 : gazteak eta helduak zorizhautatuak izan dira. gh izeneko aldagaia (H : heldua eta G: gaztea) eraiki ostean, honako moduhonetan programa dezakegu zorizko proba:

    > Datos$gh n n1 n2 c(n1,n2,n)

    [1] 29 31 60

    > bolada for(i in 1:(n-1))

    + if(Datos$gh[i] != Datos$gh[i+1])

    + {

    + bolada R

    [1] 29

    > $R$ ER VarR zp zp

    [1] -0.5127295

    > p p

    [1] 0.6081406

    Horrela, bolada kopurua R̂ = 29, estatistikoa zp = −0, 5127295 eta p-balioa p = 0, 6081406 > α;beraz, ezin dugu hipotesi nulua errefusatu, zoriz hautatu dira.

    Adibidea 6.8 Kalitate-ikuskatzaile batek, langileek egiten duten piezen kopurua ikertzeko asmoz,50 egunean zehar langile batek egindako kopurua jaso du (10 unitateka neurtua), eta honako emaitzahauek lortu ditu:

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/51

    100 110 80 75 130 95 105 125 140 85 115 120 150 60 77,5 92 112

    83 136 65 72,5 89 160 90 114 155 55 124 92,5 50 115 120 150 60

    77,5 92 112 83 136 65 72,5 89 160 90 114 155 55 124 92,5 50

    Ondoriozta daiteke zoriz aukeratu dela lagina?

    Adibide honetan, aldagaia kuantitatiboa denez, esate baterako, medianarekiko kontrastatuko dugu.H0 : zorizkotasuna.

    Aldagai jarraia denean, bolada testa egiteko runs.test komandoa erabil daiteke, behin lawstatpaketea instalatuta egonda.

    > library(lawstat)

    > runs.test(Datos$pieza)

    Runs Test - Two sided

    data: Datos$pieza

    Standardized Runs Statistic = 0.5715, p-value = 0.5676

    > median(Datos$pieza)

    [1] 93.75

    Horrela, mediana Me = 93, 75, estatistikoa zp = 0, 5715476 eta p-balioa p = 0, 5676285 > α; beraz,ezin dugu hipotesi nulua errefusatu.

    6.4. Populazioak konparatzeko kontrasteak

    6.4.1. Bi lagin askeren konparaketa

    Mann-Whitney-ren testa egiteko,

    Rcommander erabiliz,

    Estadı́sticos → Test no paramétricos → Test de wilcoxon para dos muestras →Grupos[z.a. kualitatiboa]. Variable explicada[z.a. kuantitatiboa]. Tipo de

    prueba: aproximación normal

    Adibidea 6.9 Klase batean adimen-proba bat egin da (1) ikasle berrien eta (2) errepikatzaileenartean emaitzak berdin banatzen diren ala ez aztertzeko asmoz. 30 ikasleren notak aztertu dira,puntuazioa maximoa 100 dela. Zer ondoriozta daiteke?

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/52

    B 92 12 83 36 65 72, 5 89 60 90 14 55 55 24 92, 5 50E 100 10 80 75 30 95 5 25 40 85 15 20 50 60 77, 5

    H0 : ikasle berrien eta errepikatzaileen batez besteko puntuazioak berdinak dira.

    > wilcox.test(Adimena ~ Ikaslea, alternative=’two.sided’, exact=FALSE,

    + correct=FALSE, data=Datos)

    Wilcoxon rank sum test

    data: Adimena by Ikaslea

    W = 128, p-value = 0.5201

    alternative hypothesis: true location shift is not equal to 0

    Horrela, p-balioa p = 0, 5201 > α; beraz, ezin dugu berdintasuna errefusatu.

    6.4.2. Bi lagin askeren baino gehiagoren konparaketa

    Kruskal-Wallis-en testa egiteko,

    Rcommander erabiliz,

    Estadı́sticos → Test no paramétricos → Test de Kruskal Wallis → Grupos[z.a.kualitatiboa]. Variable explicada[z.a. kuantitatiboa]

    Adibidea 6.10 Pedagogo batek konparatu nahi ditu irakasteko honako hiru metodo hauek: (1)online, (2) erdipresentziazkoa eta (3) presentziazkoa. Horretarako, ikasturte batean zehar hirumetodoekin irakasten den ikasgai bat hautatu du; eta metodo bakoitzarekin zorizko lagin bakun bataukeratu du, eta nota finalak honako hauek izan dira:

    Online 78 80 65 57 89Erdipresentziazkoa 74 88 82 93 55 70Presentziazkoa 68 83 50 91 84 77 94 81 92

    Zer ondoriozta daiteke % 90eko konfiantza-mailarekin?

    H0 : hiru metodoekin berdinak dira batez besteko notak.

    > kruskal.test(puntuazioa ~ metodoa, data=Datos)

    Kruskal-Wallis rank sum test

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/53

    data: puntuazioa by metodoa

    Kruskal-Wallis chi-squared = 1.1451, df = 2, p-value = 0.5641

    Estatistikoa K = 1, 1451 eta p-balioa p = 0, 5641 > α; beraz, ezin dugu berdintasuna errefusatu.

    6.4.3. Binakako datuen bi laginen konparaketa

    Rcommander erabiliz:

    Estadı́sticos → Test no paramétricos → Test de wilcoxon para muestras pareadas→ Primera variable[X]. Segunda variable[Y ]. Tipo de prueba: aproximación normal

    Adibidea 6.11 Enpresa baten arabera haiek ekoitzitako iragazkia baliagarria da erregai-kontsumoamurrizteko, autoen karburagailuaren hasieran kokatuta. Informazioa kontrastatzeko, 30 auto hautatuziren eta bakoitzaren kontsumoa neurtu zen, iragazki gabe (ez) eta iragazkiarekin (bai). Behatutakodatuak (l/100 km-tan neurtuak) honako taula honetan agertzen direnak badira, zer ondorioztadaiteke?

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15Ez 6, 8 7, 0 7, 2 9, 0 9, 1 10, 0 9, 2 8, 5 8, 0 8, 9 9, 3 10, 1 6, 5 7, 8 6, 9Bai 6, 4 6, 5 7, 3 8, 8 8, 8 9, 0 9, 4 8, 1 7, 5 8, 9 9, 2 10, 5 6, 4 8, 0 6, 5

    16 17 18 19 20 21 22 23 24 25 26 27 38 29 30Ez 7, 4 8, 7 9, 3 8, 2 8, 0 7, 0 9, 3 7, 0 6, 9 10, 0 9, 4 8, 0 7, 8 9, 0 9, 5Bai 7, 1 9, 0 9, 7 8, 0 7, 4 6, 7 9, 9 6, 6 7, 0 9, 0 8, 6 7, 1 8, 8 8, 3 8, 2

    H0 : iragazkirik gabeko batez besteko kontsumoa ez da iragazkiarekikoa baino handiagoa.

    > wilcox.test(Datos$ez, Datos$bai, alternative=’two.sided’, correct=FALSE,

    + exact=FALSE, paired=TRUE)

    Wilcoxon signed rank test

    data: Datos$ez and Datos$bai

    V = 327, p-value = 0.01766

    alternative hypothesis: true location shift is not equal to 0

    Horrela, heinen batura T = 327 eta p = 0, 01766 < α; beraz, ezin dugu onartu hipotesi nulua, hots,ezin dugu baieztapena errefusatu.

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/54

    6.4.4. Binakako datuen bi laginen baino gehiagoren konparaketa

    Estadı́sticas → Test no paramétricos → Test de suma de rangos de Friedmann

    Autoebaluaziorako ariketak

    Ariketa 6.1 Ireki ezazu Cars.sav (Coches.sav) izeneko SPSS fitxategia.(a) Onar daiteke % 5eko esangura-mailarekin, iragazkia [filter] aldagaitzat jotzean hautatua etahautatua ez izatearen proportzioak berdinak direla?(b) Eta onar daiteke hipotesi nulua H0 : (p1, p2) = (

    14 ,

    34), p1 = hautatua ez izatearen eta p2 =

    hautatua izatearen proportzioak direlarik?(c) Onar daiteke % 5eko esangura-mailarekin azelerazioa banaketa normalari darraiola?

    Ariketa 6.2 Ireki ezazu GSS93 subset.sav (GSS93 reducido.sav) fitxategia.(a) Onar daiteke % 5eko esangura-mailarekin aldagaiak askeak direla joera politikoa [poĺıtica] etasexua?(b) Zein dira emakumezko liberalen behatutako eta itxarondako maiztasunak? Zenbat pertsona dirakontserbadoreak?(c) Emakumezkoen artean, zein da moderatuak direnen ehunekoa? Eta gizonezkoen artean?(d) Moderatuak direnen artean, zeintzuk dira emakumezkoen eta gizonezkoen ehunekoak?

    Ariketa 6.3 Ebatz ezazu 4.2 adibidea, kontraste ez-parametrikoak erabiliz.

    Ariketa 6.4 Ebatz ezazu 4.4 adibidea, kontraste ez-parametrikoak erabiliz.

    Ariketa 6.5 Ebatz ezazu 8.1 ariketa, kontraste ez-parametrikoak erabiliz.

    Ariketa 6.6 Ebatz ezazu 8.1 adibidea, kontraste ez-parametrikoak erabiliz.

    Ariketa 6.7 Ireki ezazu survey sample.sav izeneko SPSS fitxategia. Izan bitez X1 = inkestatu-takoak betetako hezkuntzako urte kopuru handiena [educ], X2 = haren aitak betetakoa [paeduc], X3 =haren amak betetakoa [maeduc] eta X4 = haren bikotekideak betetakoa [espeduc] z.a.. Friedmann-entestaren bidez, azter itzazu hauek: (a) H0 : µ1 = µ2 = µ3 = µ4 eta (b) H0 : µ2 = µ3.

  • 7. R praktika

    Erregresioa

    Helburua

    Praktika honen helburua da Erregresio Linealean eta Anizkoitzean aplikatzen diren teknikakadieraztea.

    Lehenik, populazio-eredua proposatzeko grafikoak eta teknikak deskribatzen dira, parame-troak zenbatesteko bidea adieraziz.

    Bigarrenik, erregresio-ereduaren erabilgarritasuna zehazten da, bai adierazgarritasun orokorraplanteatuz, bai koaldagai bakoitzaren garrantzia aztertuz.

    Hirugarrenik, aldagaien arteko korrelazio lineal bakuna, anizkoitza eta partziala ikertzen dira.

    Laugarrenik, diagnosian, hipotesi eta hondarren azterketa komentatzen da.

    Azkenik, iragarpenak egiteko prozedura azaltzen da.

    Adibidea 7.1 Elektrizitate-konpainia batean, X etxearen neurriaren (oin karratutan) eta Yetxebizitzaren hileko energia-kontsumoa (kwh-tan) aztertuko da.

    Neurria 1.290 1.350 1.470 1.600 1.710 1.840 1.980 2.230 2.400 2.930Kontsumoa 1.182 1.172 1.264 1.493 1.571 1.711 1.804 1.840 1.956 1.954

    Etxearen neurriaren mendeko erregresio-eredu egoki baten araberako hileko energia-kontsumoa (kwh-tan) iragarri nahi da. (1) Proposatu eta aztertu erregresio-eredu batzuk. (2) Aztertu erregresio-eredu egokienaren erabilgarritasuna. (3) Egin korrelazioaren analisia. (4) Komentatu diagnosia.(5) Erabili iragarpenak egiteko. Zein da hondar txikiena duen behaketa? Eta bere iragarpena? Zeinda 1.500 oin karratu dituen etxe baten itxarondako energia-kontsumoa? Kalkulatu iragarpen- etakonfiantza-tarteak.

    Eraiki dezakegun Datos izeneko lagina, aldagai bat neurria eta bestea kontsumoa izanda.

    55

  • Maŕıa Merino Estatistika (Ingeniaritza Kimikoa) R/56

    7.1. Populazio-eredua proposatzea: Y = f(X1,X2, . . . ,Xk) + �

    • Baldin k = 1 bada, hodei-puntua egin dezakegu(bestela, k grafikoak, Xj vs Y ):

    plot(Datos$neurria,Datos$kontsumoa,col="blue",

    lwd=10, xlab="Etxearen neurria (oin karratutan)",

    ylab="Hileko energia-kontsumoa (Kw/h-tan)")●

    ● ●

    1500 2000 2500

    1200

    1400

    1600

    1800

    Etxearen neurria (oin karratutan)

    Hile

    ko e

    nerg

    ia−

    kont

    sum

    oa (

    Kw

    /h−

    tan)

    Erregresio linealaren komandoa lm(y~x1+x2+...+xk,data=Datos) da eta laburpenaren komandoasummary. Rcommander erabiltzekotan, jarraitu honako pauso hauei:

    Estadı́sticos →Ajuste de modelo →Regresión Lineal →Variable explicada[y]. Variablesexplicativas[x1,x2,...,xk]

    Ikus ditzagun adibide honen erregresio linealaren R-k emandako lehenengo emaitzak:

    # Erregresio lineala

    >Datos$y Datos$x erreg.lin summary(erreg.lin)

    Call:

    lm(formula = y ~ x, data = Datos)

    Coefficients:

    (Intercept) 578.92775 166.96806 3.467 0.008476 **

    x 0.54030 0.08593 6.288 0.000236 ***

    ---

    Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.�