LLISTERRI 1991 Capítulo 6 El Análisis de Los Datos en Introducción a La Fonética_el Método...

18
I , i ¡ ',/2 Í l6d LItSlern :rb/x t''mqli,n - l-l-t¡ - It r .t '.¡i ¡ rl l4hdüeum o A {"éhr^t ú,,úM' '---i e. tP^elki,{. , &rd,xY*: &rÍhrafs. EL ANÁLISIS 6 DE LOS DATOS 6.1. LA ORGANIZACIÓN DE LOS DA:I'OS AI referirncls a los criterios para la constitucitilt cii' un corpus (3.2) utilizamos ia noci<in c1c variable, cjcliiri da siguiendo a Hatch y Farhady (1982,12) conro un att'i- buto de una persona o de un objeto que varíit cle pct'stl- na a persona o cle objeto a objeto. Vimc-¡s qLlc en e I ciisc- ño de un corpus pueden considerarse un gran nLlllret'o de variables, que siempre estarán en hrnción de lzt hi¡;i.'- tesis inici¿ll. También al hacer referencia a los inf ot' mantes (4.2) mencionamos algunas cle las variatblcs quc los caracterizan. Existen además v¿rriables reiacionaclas con el entorno -pol" ejemplo, en esturdios compzLretnclo la inteligibilidad del habla enmascarada con distintr-rs ti- pos de ruido similar al que puede encontrarse en los sis- temas reales de telecomunicación- o motivadas pr:r lat propia técnica de análisis, si se comparan diversos mé- todos de estudio de un mismo parámetro fonétict¡. Sin embargo, es importante, en algunos casos, llet'¡rr a cabo lo que Brown (1988, 8) denomina una delinicitin operativa de las variables, es decir, hacer erplícilos los t -])

description

estadistica

Transcript of LLISTERRI 1991 Capítulo 6 El Análisis de Los Datos en Introducción a La Fonética_el Método...

  • I, i ',/2 l6dLItSlern :rb/x t''mqli,n - l-l-t -Itr .t '.i rll4hdeum o A {"hr^t ,,M'

    '---ie. tP^elki,{. , &rd,xY*: &rhrafs.

    EL ANLISIS6

    DE LOS DATOS

    6.1. LA ORGANIZACIN DE LOS DA:I'OS

    AI referirncls a los criterios para la constitucitilt cii'un corpus (3.2) utilizamos ia noci

  • clitcl-i()s cn los c.luc nrJS brsrrnos para ,zrsignarles lrn dc-lel'ltlintclo valclti; csto succclt' cn el caso cle arlgunas vzr-l'ilrbl.'- Ll ur'\'ir Itcl)rr,s lt'llei,)l)rclcl \ qLte scgttit-cmos uti-lizancl
  • 6.L2. Tablas de"datos

    En el momentp de llevar a cabo el anlisis del corpus-tanto si lo somelemos a un tratamiento instmmentaicomo si evaluamos auditivamente la presencia o ausen_cia de una determinada variable fontica- es til cons_truir tablas en las que se puedan ir anotando los valoresencontrados para,cada variable. Por lo tanto, su organi-zacin depender del nrnero y de las caracterstic deias variables que intervengan en nuestro experimento.

    Empezaremos por un caso simple, tomado de un es_tudio sobre el graclo de velarizacin de la consonante la-teral |] cuando hablantes que conocen el cataln

    -len-gua que posee una [l] velarizada- y el castellano apren-den francs (Llisferri y Martnez Daudn, 1990). parar"ealizar este tr:abajo se midi la frecuencia del sesundoformante (F2) de Ia lateral, considerado un buenl*oo-nente del grado de velarizacin; esto se realiz en lasprodr-rcciones de cliversos informantes, siernpre en elcontexto consonarlte literal seguida de la vocal [e], le-yendo un texto en irancs. La presentacin de los da_tos en estc'ci:;c

    ::; ilLiv sinrple, al corno se reileja en latal'rlr 1:

    Tlel.n 1. Valores en hrcios ,lel segundo fonnantede la corLso,ut.te latercLl Il] en el contexto Ilel en un hablant.

    bilingtie catalan,,.-ctstellano leyendo un texto en francs

    lnf I

    'LqeL 2. Valores en miliseguttdos clel VO'I' de Lus tre\consonalltes cclusivas scr!aS tlel catalan er1 cot1(L(l()

    cott t,ccaLes tniccts en civtt:t inIrtrtrtcLt Lte's

    lil [e] [r;]1 5,5 8,4 6,e3,6 6,1 1?-,l

    I 0,7 9,8 8,2l 8,8 13, 12,2i7,8 13,3 8,317,3 12,8 9,s23 ,3 11 ,4 15 ,213,5 i6,1 1 0,744,5 23,9 25,110,7 22 ) 8,2

    i_l

    11,9

    ".1,3

    9,14)-15

    W.,ffi

    ffi!

    ffi

    ffi,,ffi,&ii I

    ,,$,;

    ff''

    $i

    {

    posible manera de organizariisis acstico de la duracintiemPo que transcurre entrenant ociusiva Y ei inicio deguiente) de las tres ociusivasiodas las vc-rcales tnicrs decinco informantes (Llisterri,

    los clalos cxtridos dci rit-cle l V0'l (i'utt,' ()n.\( / i 1/1( 'la explosln de utLra c()tlso-la sonoriclrd de lt vocil si-del catalirrl cn corltacto c(.t't

    esta lcngua, rcaiizlLclo s

  • caso de cada consonante en cada contexto voclico, ca-bra aadir otra colurnna -(c> en la tabla 3- que re-presente cada uno de los casos de combinacin . ,rro

    oclusiva con una vocal que aparecen en el corpus:

    TasL,{ 3. Va.lores en milisegundos del VOT d.e la c:onscnanteoclusiva sorda Ip] del cataln en contacto con vocales tnicas

    en ctco informanies, presentando lo.s valores de tres casosael corpus

    tpl Inf 1Inf 2Inf 3Inf 4Inf 5

    c316,3

    10,116,916,9

    c3

    q?77,1

    10

    t ilc] c2

    15'5 17,23,6 6,7

    ro,7 11,318.8 17 ,6t7 ,8 16,5

    telcl c28,4 10,26,1, 8,29,8 10,2

    13,6 14,613,3 13,9

    La tabla 4 ofrece en cambio un ejemplo de organiza_cin de variables discretas; en estos casos, suele rcoser-se Ia frecuencia de uparicin de cada uno de los fenLe_nos estudiados. se trata aqu de presentar los resultadosobtenidos al contai' el nmero de fenmenos fonticosrelacionados con ir intermpcin del flujo del discursopor vacilaciones en un conferenciante ingls y en dos desus intrpretes al espaol; se refleja aqu el nmero to_tal de veces que aparecen elementos como oero (en ingls)o ueho y (mm> (en r;spaol), adems del alargamiento vo_clico ante pausa al final de una palabra o frase. Estoselementos se tomaron como indicadores de la estructu-racin y fluidez del discurso en un estudio realizado porLlisterri y Poch (1990).

    Mediante la tabia 4 podemos comparar la diferenciaen la frecuencia de aparicin de intermpciones del tipodescrito en el conferenciante y en los intrpretes, altiempo que es posilrle contrastar las estrategias utiliza_das por cada intrprete en los momentos de vacilacin.

    140

    'I.nra 4, Frecuencia de aparicin de manifestaciones lonticasde la intenupcin del discurso en utt conferenciante

    y en dos intrpretes

    Conferenciante Intrprete I Intryrete 2(efD

    vocal largatotal

    ueh>(mm)vocal largatotal

    JI

    1249

    230

    29)/.

    45

    J/46

    En el momento de presentar los resultados rJe prue-bas de percepcin suelen utilizarse las llamadas matricesde confusiones. Yeamos como ejemplo parte de los re-suitados de una prueba de identificacin de vocales sin-tetizadas (Llisterri, 1984) en la tabla 5:

    Tara 5. Matriz de confusiones (en porcentaies) resubadode un test de oerceocin de vocale.s sintetizadas

    t jl 60,6 34[e] l,s e2,4te I 4,s[a] 1,5tal 1trltoltul 0,75 o,7 5

    4,5 0,7s3,7 0,75

    93,9 0,7 50,7 5 84,8

    tul

    0,75

    ))3,7 0,7s

    q)4 5?0,75 97,7

    tol[]f -'lLc ItlLoltel[e]tjl

    7,5o,75 2,294,6 1

    94,6))

    En el eje vertical de esta tabla se colocan las vocalessintetizadas que los sujetos del test deban identificar, y enel eje horizontal sus respuestas, presentadas aqu en por-centajes; 60,6a/o en la interseccin entre las dos vocales [i]nos indica que tal vocal fue identificada correctamente un60,60/o de las veces que apareci en el test, mientras que e[

    r41

  • :Xrr". por ciento que se encuentra en la interseccin entreLrJ y LeJ rndrca en qu proporcin la primera se confundicon la segunda. nn t"gu.i. po.."rjes hubiera sido no_sible utilizar tambin-el nmer"

    "U."i"to ;;;;;; ";niendo la precaucin de indicar cuntos sujetos participa_ron_en el test y cuntas veces escucharon cada estmulo..

    Vemos que, rriediante la confeccin de estas tuU., .linvestigador puede ya hacerse una primera idea de las ten_dencias de sus resultados. Al mismo tiempo, la tabulacinde_ los datos consfituye el primer paso para su presenta_cin grfica y pai^a el tratamient estadstico p"r,".ioi

    6.2. LA PRESEN?'ACIN DE LOS DATOS

    Las tablas que acabamos de ver constituyen una bue_na marera de pre-sen,tar los datos, pero imaginemos quea la tabla 3 aadii'amos los ."*liudo. .";"-.p";ai.r,..a las tres consonantes y a las siete vocales pru to, .irr_co informantes; seda muy diffcil obtener una visin glo_bal de las tendencias que se desprenden de fu,

    "U..ir"_ciones. Por tal motivo es til a tenudo r"p."s.ntar deforma grfica los r.esultados obtenidos; para "l .rt".,diversas tcnicas, que exponemos en este apartado.Una de las ms utilizadas es el histog**",i ,._presentacin en la que en el eje horizontl se sitan lo.valores hallados para una detrminaa. uu.iubi"-r-il.1

    eje vertical el nmero de casos encontrados par .adavalor, es decir, sufrecuencia d.e aparicin. Ef frirt"g.um,permite obtener una primera impresin visual soire ladistribucin de los daios.!" 11 figura 4 ofrecemos el histograma que corres_ponde a los datos de la tabla 1, presentando distribu_

    cin de los valores del segundo fbrmante de [l] *;;;1"_formante bilingrie leyendo un texto .., fru.r.Zr, .".oiJ"_mos que puesto que el contexto y el informante sonsiernpre los mismos, la nica variaLle ",

    .l .rulo. ; E.142

    1350 1450 1550 1650 1705 HzFtcuna 4. Histograma de la distribucin de los valores del

    segundo formante de tll en el contexto []el en un informante

    El eje horizontal recoge Ios valores encontrados parala variatle

    -agrupados en intervalos de 50 lHz-, y en el

    vertical se muestra el nmero de casos en que aparececada intervalo de valores. Puede observarse as culesson los valores que aparecen con ms frecuencia, obte-niendo de este modo una primera indicacin sobre Iadistribucin de los datos.

    Presentamos a continuacin un histograma de carac-testicas similares, que visualiza los datos de la tabla 4,relativos a la frecuencia de aparicin de fenmenos rela-cionados con la intermpcin del discurso en mornentosde vacilacin en un conferenciante y en dos intrpretes:

    Flcuu 5. Histograma de la frecuencia de aparicinde fenmenos relacionados con la interrupcin del discurso

    en un conferenciante y en dos intrpretes

    20

    10

    "er" conf alug conf "eh" intl "eh" int2 "mm" intl "mm' int2 alarg intl lrg inl2

    t43

  • . Fn el eje horieontal se encuentran las variables estu_diadas -prolongacin de vocales, simborizada como

    ,,alargo, nero (en ingls) y neho,

  • vocal -y ste es i:n dato que no aporta nada a una des_cripcin fontica--, y las zonas sombreadas correspon-

    den a la duracin del VOT en cada oclusiva; este tipo degrfico permite observar claramente la relacin entie lastres consonantes, mostrando en qu proporcin el valorde e-sta variable es mayor o menor segn el lugar de ar_ticulacin.

    Frcunl 8. Valores medios del VOT d" tpl, tLl y tkl d.el catalnen eontacto con vocal tnica

    Iu]loltollalIE]Ie]til

    0

    Frcun 9.

    20 40 60 80Valores medios del VOT d" [pJ, tL] y tkl del cataln

    en cantacto con vocal tnica

    til [e] tl [a] tol [o] Iul

    l4

    Otra posibilidad viene dada por los llamados polgo-nos de frecuencia. Los valores de las variables se repre-sentan mediante puntos en lugar de hacerlo mediantebarras como en los histogramas, aunque siguiendo elmismo principio: la altura del punto en el eje vertical in-dica o bien la frecuencia de aparicin o bien el valor deuna determinada variable, situada en el eje horizontal'Pueden compararse distribuciones de datos juntando doso ms polgonos en la misma grh'ca, tal como se ha he-cho en la figura 10, en la que se presentan de nuevo losvalores medios del VOT de las tres oclusivas sordas delcataln en funcin de la vocal que les sigue:

    VoT [tlvor [p]

    Ftcuru 10. Poligono de frecuencias con los valores mediosdel VOT d" [p], [L] y [

  • 40

    nativa para representar los resultados de experimentosrelacionados con la percepcin.

    En la figura 1l se recogen los resultados de un testde identificacin de slabas sintetizadas cuya consonan-te inicial era [pl o [Ll (Llisterri, l9B7); se piesentaron lsiabas sintetizadas del tipo [p] + vocal y 16 con la es-tmctura [t] + vocal, y se pidi a un grupo de 35 perso-nas que identificaran la consonante inicial.

    El eje horizontl muestra cada uno de los estmulos(slabas con [p] y slabas con [l]) y en el eje verrical seencuentra el nmel-o de casos en que cada estmulo fueidentificado como una slaba con la consonante iniciallpl o [t]:

    ----+- trl

    -Gr- tplpppppppppppppppp r r r r r r r r r r r ft r t r

    Flcun, 11. Polgono cle frecuencias ind.icand.o la id.entificacinde la consonante inicial (tpl o [L]) en s{labas sintetizadas

    Una cuarta posibilidad viene dada por los campos dedispersin o scatters. [istos se obtienen situando io. .rrr,-lores de dos variables en un eje de coordenadas, de ma-nera que pueda observarse tanto la dispersin de los da-tos como la relacin entre las variables.

    La figura 12 rnuestra el campo de dispersin de un

    t48

    conjunto de vocales del cataln, a partir de datos extra-dos de Llisterri (1987). En el eje horizontal encontramosla frecuencia en hercios del primer formante (Fl) y en elvertical la del segundo (F2); cada punto representa unavocal producida por un informante, de modo que losseis puntos que pueden contarse para cada vocal co-rresponden a las realizaciones de la misma vocal en elmismo contexto de seis informantes diferentes:

    ifi! t++

    ++olq

    !d,o l

    .^^ - a ".^r o -u0

    a

    "o3 +2000

    1000

    0f2D0 600 ?00

    Frcun 12' Campo d",!::t:nT:":;2x* de una muestra

    La representacin de los campos de dispersin de lossistemas voclicos es una de las utilizaciones nls f-t'e-cuentes de loslsZii'i'is',.n fontica, pei'o hay que sealarque pueden tdib.'in tilizarse en cualquier caso en elque se desee mostrar cmo se distribuyen ios valores dedos variables. En el prximo apartado nos referiremostambin al papel de este tipo de diagramas para visuall-zar la existencia de una correlacin entre dos variables.

    Finalmente, cabe referirse a Ios diagramas de porcio-nes, en los que los valores de las variables se reparten so-bre una superficie circular. Las figuras 13 y 14 repre-sentan la informacin contenida en la tabla 4 y en las fi-guras 5 y mediante dos diagramas de este tipo.

    Cada una de las porciones representa una de las va-riables tomadas en consideracin, y la parte que ocllpa en

    119

  • el crculo es proporcional al nmero de veces que apa_rece; puede tambin incluirse, como se ha hechoaqu, elclculo del porcentaje que representa respecto del total.As, mediante la figura 13 sabemos que del total de va_cilaciones en el discurso del intrprete, un 0 a/o corres-ponde a prolongaciones de vocales, un 10 Zo a elementoscomo y un 8 ot,b a
  • estadstica para la interpretacin de ios resultados de unexperimento.

    centraremos nuestra exposicin en tres mbitos: ladescripcin de los datos en lo que se refiere a las ten-dencias generales y a su variabilidad o dispersin, lasherramientas relacionadas con el falseamiento de rrr-ptesis nula y la correlacin entre las variables.

    6.3.1. La descripcin estadstica de los datosEn el momento de realizar una descripcin estads-tica de los datos, hay dos factores que entran en consi_

    deracin: las llamadas "medidas de Lu t"rrd".r.ia central>y los que podemos denominar ..indicadores de la dis_persin". Ambos parten del concepto de distribucin

    norynal, que ejemplificaremos a continuacin.

    .3.1.1. La distribu.cin normal

    Imaginemos ql-te en una clase de 3 estudiantes, lasrlotas de un examelr. son las que se recogen en la tabia 6:

    :.

    Tabla 6. Notas de 36 estudiantes en Ltn examencorrespondientes a una distribucin norynal

    Estudiante n."NotaEstudiante n.oNotaEstudiante n."NotaEstudiante n.oNota

    1

    0108

    19'7

    286

    2345678910 1199222u1213141516171888333377

    20 21 22 23 24 25 26 277444446629 30 31 32 33 34 35 3666555s55

    El histograma correspondiente a la distribucin denotas en esta clase es el siguiente:

    152

    0 1 23 4 5 67 8 910FIcuna 15. Histograma de la distribucin de notas

    en un grupo de 36 estudiantes representandouna distribucin normal

    Si uniramo, rn.Oru.rte una lnea curva los extremosde cada una de las barras, obtendramos lo que se co-noce como campana de Gauss, o curva de la distribu-cin normal, caracterizada por su forma simtrica res-pecto del punto ms alto. El examen de las notas de latabla nos indica las caractersticas de este tipo de dis-tribucin: slo un estudiante ha obtenido un 0 y slc-runo ha obtenido un 10, dos tienen 1 y dos 9, tres han ob-tenido un 2 y tres un 7, y as sucesivamente.

    En los datos reales, nunca nos encontrarnos conuna distribucin perfectamente normal

    -comprese, porejemplo, este histograma con el de la figura 4- y por ellohemos recurrido aqu a un ejemplo antificial; en general,cuantos ms valores recojamos, ms se acerca su distri"bucin a la curva de una distribucin normal. Habitual-mente, cuando el nmero de casos es igual o mayor que30, la distribucin de una muestra de casos *-elegidos alaza, y no construidos ad-hoc como en el ejemplo pre-cedente- se acerca suficientemente a la normal.

    Esta cifra es importante a la hora de considerar el n-mero de muestras de cada caso que necesitamos paraconstruir un cofpus; en una situacin ideal, tendramos30 muestras de cada caso estudiado --por ejemplo, en elcaso del VOT, 30 casos de [p] seguida de [i], 30 de [p:l se-

    r53

  • guida de [e] y as sucesivamente, si el entorno voclicoconstituye una variable del estudio; si, en cambio, decidi_mos tratar nicamehte la variable nruga. de articulacinr,3O..casos d" [p], 30,de tll y 30 de t[] sern ,"n.i..r,.r.Mrlroy (7987,135) cita a propsito de este tema las con_clusiones de Guy (l!80): .o.,

    -".ro, de l0 .u.o, p*u .rr.determinada variabie encontraremos seguramente questa-se comporta al zar; con 10 casos tenemos eI90ok deposibilidades de acercarnos a una distribuci., .roa,mientras que con 35 llegaremos casi con toda seguridada una distribucin ndrmal, a condicin de que a..fr"e, ,rodeseemos formar grltpos ms pequeos en el interior deesta variable. Cuando

    _

    se- desea xaminar el comporta_miento conjunto de rns de una variable upli"anJo IJ."i-cas como las que se clescriben en el apartabo .3.4 es ne_cesario disponer de un nmero ms elevado d. .u.sos.,

    Es importante conocer la normalidad de ""u-i.,.ibucin de datos, pues muchas pruebas

    "n "rtui.,il ,"basan en el principio de que las aplicamor;;;;l;;",de valores.que se acercan estas ndiciones.

    6.3.1.2. Its medidas de la tendencia centrallfemos observado en e_l histograma anterior que lanota ms frecuente entre los alumnos del grupo ir-

    ",cinco, siguiendo, por. orden descendente, n cuatro yun seis. Las calificaciones parecen pues agmparse alre_dedor de estas puntuaciorr.r, qr. constituyei el centrovisual de la distribucin. Existen diversas medidas nu-mricas, que nos indican de forma cuantitativa lo quehasta ahora slo hemos observado cualitativamente. '

    La mediana es el v;rlor de una distribucin pu.r.l qrr.podemos encontrar el mismo nmero de casos cor rn ir.-lor ms alto que con irn valor ms bajo; por lo tanto, esel valor que se encuentra en el centro-de ia distribucin.Puede verse fcilmente que el valor de la mediana ., t;"el grupo de notas que estamos analizano; po. .U": .esta nota quedan 15 casos, y por encima otios 15.

    r54

    Se utiliza tambin la moda, entendida como el valorcon la frecuencia de aparicin ms alta en una distribu-cin; en nuesto caso, tambin es 5, puesto que es la notaobtenida por seis alumnos, mientras que el resto,de no-tas corresponden a grupos ms pequeos de estudiantes'

    No obstante, el valor ms empleado para indicar latendencia central de un conjunto de datos es la media,que se calcula como la suma de los vaiores de todos los

    "uro, dividida por el nmero de casos' La nota media de

    nuestro grupo es un cinco (la suma de todas las notas es180 y ltly lO alumnos), y podemos observar que en elcaso de una distribucin perfectamente normal coinciciecon la mediana y Ia moda, cosa que no suceder en lasdistribuciones de datos reales con las que trabajarernosen fontica. Por ejemplo, en la distrihucin de valoresdel segundo formante de [l] de la tabla 1, la medianatiene tin valor de 1.570 Hz, mientras que la media es de1.565,4 Hz, situndose la moda entre los 1'550 -v los1.00 Hz.

    La media se considera una buena rnedida de la ten-dencia central en la distribucin de los resultados, puestoque tiene en cuenta todos los casos, al contrario de la me-ii.nu y la moda. Su principal iimitacin es que tambintiene n cunta los valores extremos de la distribucin,aunque esto puede obviarse considerando un nmero ele-vado de casos. En conjuntos de datos'no muy grandes,este es un factor que debe tomarse en consideracin'

    Las cifras siguientes nos ofrecen un ejemplo de las li-mitaciones de la media como nico parmetro para ca-racterizar una distribucin:

    Conjunto de datos (a): 1,2, 3, 4, 5,6,7, 8, 9, 10'Media = 5,5

    Conjunto de datos (b): 5, 5, 5, 5, 5, 6, 6,6, 6' 6'4sdi = 5,5

    Conjunto de datos (c): l, l,1,1, 1, trO, 10, 10, 10, 10'Media = 5,5

    Conjunio de datos (d): 3,3,3,8, 8, B, 6,5,6,5'Media = 5,5

    i5s

  • No hace falta examinar los histogramas, para darseguent-a de que una. rnisma media puede

    "oo.rporrder adistribuciones de valores muy distintas, y po. .ilo es ne-cesario tener ciertas precauciones a la hora de interpre_tar sus resultados, que pasan por considerar algunoi delos indjcadores de la dispersin a los que se hce refe_rencia en el prxirno apartado.

    ',

    :

    6.3.1.3. Indicadores de la distribucin de los datos

    El anlisis de la variabilidad de los valores de un con_junto de datos puede iniciarse considerando los varoresmdximos

    -valor ms alto- y mnimos -valor ms baio_como indicativos de la dispersin. La diferencia

    ".rt..ellos constituye el rango. No obstante, estos dos indica-dores se ven afectados tambin por la presencia de va-lores atpicos en el grupo. Si observams los valores dela tabla 2, veremos que el VOT de [k] presenta un valormnimo de 12,5 ns y un mximo de 59,5 ms, con unrango de variacin de 47,3 ms; en cambio, tanto la me-dia (29,3 ms) como la mediana (29 ms) tienden a coin-cidir, demostrando que se trata de una distribucin quese aproxima a la normal, exceptuando los valores extre-mos que aparecen a la derecha de la fieura 16:

    ms

    Frcun 76. Histograma de los valores en ms det VOT de [k]. del cataln

    15

    Debido a estas limitaciones el indicador de la disper-sin ms utilizado en estadstica es la desviacin tpica.para hallarla, se calcula en primer lugar Ia diferencia decada valor con respecto a la media; algunas diferenciassern positivas mientras que otras sern negativas; a finde eliminar la diferencia de signos se elevan los valoresal cuadrado y se suman para encontrar la suma de loscuadrados; dividiendo por el nmero de casos menos uno

    -sta es una precaucin que se toma cuando la mues-

    tra es pequea- y realizando la raz cuadrada obtene-mos la dsviacin tpica. A grandes rasgos, sta puedeconsiderarse una especie de promedio de las desviacio-nes de todos los valores respecto de la media'

    Hemos explicado el procedimiento empieado -para

    calcular la desviacin tpica para poner de manifiestoque es un ndice que tiene en cuenta la.variacin de cadaJ.ro ."rp.cto dela media. Para la inlerpretaci. de ladesviacin tpica hay que considerar que cuanto m.selevada ..u,

    -uyo, "i lu ditp.rsin respecto de la mediade cada uno de los valores, mientras que cuanto ms baja'ms agrupados se encuentran los valores alrededor de lamedia o punto central de la distribucin. volviendo a iosdatos t"i - @ que anteriormente hemos presentado, ladesviacin tfpica de cada grupo es la siguiente:

    Conjunto de datos (a) Desviacin tpica = 3Conjunto de datos (b) Desviacin tpica = 0,5ConJunto de datos (c) Desviacin tpica = 4,7Conjunto de datos (d) Desviacin tpca = 2,1

    Se cumple pues que, cuanto mayor es la dispersionde los datos, mayor ser la desviacin tpica'

    Hay que tener tambin en cuenta que el valor ?b:o-luto de la desviacin tpica depende de los valores de losdatos. As, mientrut qtt la desviacin tpica en el caso delos valores del VOT de tkl de la tabia 2 es de 10,2, la delsegundo formante de tl] en ia tabla I se eleva a77,3, de-bio a la diferencia en los valores absolutos de los datos.

    Al examinar una distribucin, suele hacerse referen-

    157

  • cia tambin a la .simetra respecto del centro -conocidaen estadstica corno sesgo- y a su agrupacin alrededor

    del valor central *-o curtosis-. Estos o. i.rdi.udores pue-den cuantificars numricamente, aunque son aprecia_bles observando los histogramas. una distribucin pue-de tener sus valores centrados hacia la izquierda (srgopositivo) o hacia,la derecha (sesgo negativo); en el pri_mer caso, la media suele ser ms baja que la mediana, yla mediana ms baia que la moda, mieniras que en el se-gundo sucede lo contrario. Una curtosis alta iignifica, encarnbio, que los valores se agn-lpan de forma"m,.ry p.o_nunciada alrededor de la media, mientras que .r.r .r.-tosis baja indica: que se reparten, tendieno hacia unhistograma que dara una lnea casi plana si uniramoslos extremos de las barras.

    6.3.2. Los test estadsticos

    Al plantear crno se formulan las hiptesis hicimosreferencia a los conceptos de hiptesis nula e hiptesisalternativa (2.4.2), v rnencion.-or que en un experimen_to intentamos siempre falsar la hiptesis nula, simboli--z-a_da gomo Ho. Vamos a volver ,br. el problema delVOT de las oclusiias para ejemplificar crno podemosproceder en este caso.

    E,s un hecho bin establecido en fontica que el VOT(recordemos que se define como el intervalJ temporalentre_ la explosin cle la consonante y el inicio de ,o-noridad en la vocal) distingue el lugai de articulacin delas oclusivas: [p] tiene un VOT de una duracin mayorque [t] y ste a su vez es ms elevado que el de tkl (iis_ker y Abramson 1964, 1973). E' la tubru z p."i..rtiu.-mos mediciones dei vor de las tres ociusivai sordas delcataln, y se trata cie ver ahora cmo podemos plantear,desde un punto de sta estadstico, lai difere.r.i., entreestas consonantes, limitndonos, para mayor simplicidad, a trarar de distinguir entre ipl V ttl.La hiptesis nu.ia, en este .uro, ,. formulara del

    r58

    modo siguiente: no hay diferencias entre el VOT de [p'iv^. ft! si fuera i"t', los valores qup hemos relacio-iuo .tt cada una de las consonantes perteneceralt'.enrealidad, a un nico conjunto de datos' Nuestro objetivoes demostrar la f^lttd^ de esta afirmacin' utilizando,ra, pro."aimiento que nos.permita demostrar que los va-lores hallados en ei anlisii corresponden a dos conjun-tos de datos distintos'

    Para elio utilizaremos un test estadstico conocidcrcomo t-test de Student' Este test compatq l?.*'tdias de;;;^;*p;, d" duto' v nos da una probabilidad de quepertenezcan al mismo gtt'po o de que estn extradas deil;;;;;; ait"r.,'I"'' o*p^t'ndo las medias de dura-.i?"-"ivoT de [P] y de [ mediante este test' obtene-;;; ;;. significaci cle 0' Io que quiere decir. que tc-;;;"; d 0"% cle posibilidades de que las medias pro-vengan dei mismo grupo'

    En cambio, i,'tt-"tt-os dividir en dos gmpos los da-tos relativos a la oclusiva [p1, de modo que en -"1 gf"P"tengamos to, .ot'"'fondlttti"t a las oclusivas bilabialesque han sido pronunciadas en contacto con las vocalcs

    [i], tel y tel y "" "oo-f"t d9 lpl

    en contacto con [a]' L:l'ioi v iul Los resultados del t-test nos proporcionan unrsignificacin estadstica de 0,561, lo que indica.que' cr)ni;il;;;;tli;;J;;;t";emos er 56o/o e posibilidacies deqL f"t medias corTespondan en realidad al mismo gnt-po de datos."" ;;;l;isar Ia hiptesis nula hemo's partido pues def" i"" . que los lo'"' obtenidos en las medicionesf"*..r"...t ul -i.r,,o conjunto de datos' y hemos' aplica-do un test que, co*pututdo las medias' nos ha dadr:r un;;J; " proUubilid;d de que esto suceda' Este grado deorobabilidad se relaciona on Ia signi[icacin estadstica"ffiJ;;;i it", q"t suele presentarse en forma de-cimal y se convierte en un porcentaje multiplicndola;;;1b Ctu.,doiu probabiliad de obtener un deterr'i-ludo ,"rrrltado si loi datos pertenecicran al mismo con-j""r. es alta, no podemos iaisar ia hiptesis nula --esdecir, tenemos inicio, de que los dos conjuntos de va-

    159

  • lores corresponden en reaiidad a un mismo gmpo comoen el caso de la separacin que hemos realizrdo en losvalores del vor 4" tpl- y se habla entonces de diferen-cias no significativas entre los dos grupos. por el conrra-rio, cuando ms baja sea esta probabilidad ms segurospodemos estar de'quLe estamos {rente a clos grupos d"e da_tos distintos, corno en el caso de los valorei et vor aetpl V [t]. Una expiicacin ms detallada d"

    "rt" p-."ro-que aqu hemos simplificado excluyendo la .ro.ir, d"valo- crtico- puede verse en Brown (19gg, l|g_122).El nivel de significacin es la probabiridad mnima apartir de la cual podemos considerar que la hiptesisnula queda falsada, es decir, qu tanto por ciento de po_sibilidades considt'ramos el minimo para pensar que noshallamos frente a dos gmpos diferentes de datos. En ci.n-cias humanas suele fijarse el nivel de significacin en0,05 (5 ok); es decir, cuando la probabilidd de que losdos grupos de valores compa..dos pertenezcan a unamisma clase es igual o menor al 5o/o puede pensarse yaque pertenecen a dos clases distintas. En eite caso sepuede aceptar que ias diferencias entre los dos gmpos noson debidas al azar y considerarlas significati"vas. si laprobabilidad es del 1 % (0,01) se habla de diferenciasmuy significativas. -No obstante, la existencia de diferen-cias significativas entre grupos de datos no constituyeuna explicacin d" qn fenmeno fontico; el resultado deltest estadstico es la herramienta que nos permite falsarla hiptesis nula en la que basamos un experimento, perono nos indica el morivo de las diferencias entre los dtos.Este mismo razonamiento podra aplicarse al estu_dio sobre la velarizacin de la lteral en hablantes bilin-ges que hemos presentado anteriormente. El problemaes el siguiente: tanto el castellano como el frncs sonlenguas que presenian una consonante latral alveolar,mientras que el cataln se caracteriza por una []] velari-zada; desde el punto de sta acstico, esto se manifies-ta e-r diferencias en,la frecuencia del segundo formante(Delattre, 1951). Se trata de averiguu. si.rrundo un ha_tlante bilinge cataln-castellano aprende frurruer, pro_

    r0

    duce una consonante lateral alveolar o bien utiliza la va-riante velarizada propia del cataln.

    Para ello debemos obtener tres conjuntos de datospara cada uno de nuestros informantes; los valores delF2 de [l] cuando hablan cataln, cuando hablan castella-no y cuando hablan francs

    -estos ltimos se presentanpara un informante en la tabla 1-. Si pensamos que plre-de haber una fuerte interferencia del cataln en el h'an-cs, plantearemos la hiptesis nula en los trminos si-guientes: no hay diferencias entre los valores de F2 de lllen las realizaciones catalanas y en las realizaciones fran-cesas de los infbrmantes. Un test adecuado nos permiti-r establecer el grado de significacin de las diferencias,y decidir si podemos o no falsar la hiptesis nula. Un gra-do de significacin por encima de 0,05 nos indicar quehay rns de un 5o/o de posibilidades de que los valores deF2 encontrados para ambas lenguas pertenezcan ai mis-mo conjunto de datos, con lo que no podremos falsar lahiptesis nula y tendremos indicios suficientes para pen-r.i q,t., al hablar trancs, nuestros locutores esln utili-zandc la variante velartzada propia del cataln.

    Los ejemplos que hemos utilizado hasta ahora se re-fieren a la comparacin entre dos conjuntos de datos-el VOT d" [p] y [U o los vaiores de F2 de []l en fian-cs y en cataln- y en estos casos pr,rede utilizarse elt-test de Student al que hemos hecho referencia. Sin e m-bargo, puede ser que necesitemos comparar ios datos dems de un grupo

    -por ejemplo los valores de VOT delas tres oclusivas o los valores del F2 de [l] en cataln,castellano y francs-i para ello debemos recurrir a otratcnica, conocida como anlisis de varianza.

    A grandes rasgos, se trata de determinar si la varia-bilidad de los datos entre los diferentes grupos es mayorque la variabilidad en el interior de cada grupo, ccn ob-jeto de falsar la hiptesis nula si esto sucede; volvien-do a nuestro ejemplo, las diferencias que se encuentrancomparando las mediciones del VOT d* ipl, tll V Ik] de-ben ser mayores que las que hallamos comparando en-tre s todas las las mediciones realizadas para lp l, para

    16i

  • [L] o para [k]. En este caso se aplicara la prueba deno_minada one way analysis of uariance o one way ANOVA.En casos ms complejos se utiliza un anlisis factorialde varianza, encarninado a mostrar dnde se encuentranlas diferencias significativas entre distintos grupos dedatos relacionados unos con otros.

    Todo lo dicho,hasta ahora muestra la amplia gamade procedimientos estadsticos para comparar divrsasvariables, pero no..constituye ni mucho menos una pre_sentacin exhaustjva; por este motivo remitimos al lec_tor a los trabajos sobre tratamiento estadstico de datoslingsticos citados en el apartado dedicado a las lectu-ras. Hay que sealar que la seleccin del test ms ade_cuado para falsar la hiptesis nula depende de variosfactores, entre los que se cuenta el tipo de variable

    -h.ytest adecuados pa'a 'ariables de intervalo y de relaciny otros mejor adaptados a las variables nominales y or-dinales-, el nmero de casos, la diferencia de tamao

    entre los gmpos que se comparan y la normalidad de ladistribucin. Por ello, antes de utilizar un determinadotipo de test, es preciso asegurarse de cules son los re_quisitos que nuestros datos deben cumplir.

    .3.3. La correlacin entre las variables

    Queda por examinar un tipo especial de relacin quepuede darse entre dos variables, conocido como

    "ooilo_cin. Dos variables ije encuentran en correlacin cuandoaumentan o dism grado deco?itrlffiiffi*S visuiiza en un campo de dispersin oscatter, observando,la colocacin respecto a los dos eiesde los puntos que representan a los valores.

    Ilustraremos este concepto con otra nocin bien co-nocida en fontica: 'la relacin entre la frecuencia fun_damental intrnseca de una vocal

    -es decir, la frecuenciade vibracin de las'cuerdas vocales en el momento ciepronrrnciarla, simbolizada como Fn- y la frecuencia delprimer formante de la misnra (Lehiste y peterson

    . 196l:

    162

    Lehiste, 1970). Los siguientes datos, tmados de Llister-ri (1984), corresponden a valores medios para el calalande una informante femenina:

    Tanu 7. Valores medios en hercios del f'undamentaly del primer formante de las vocrtles tnicas del cataln

    p(f,ra una inforunante femerina

    Vocal fpllvt204

    Ie]208525

    tal191591

    Io]204516

    tuj212325

    trl208429

    trl200331

    FoF1

    Representandosin obtenemos el

    estos datos en un ,campo de disPer-siguiente grfico:

    220

    FlcuRa 17, Conelacin entre la frecuencict fundamentaly la frecuencia del primer fonnante en una muestrct

    de vocales tnicas del cataldn realizadas por unainformante femenina

    Se observa que para las vocales anteriores lil, lel y [e ]al aumentar Ia frecuencia del fundamental (en el eje ho-rizontal) aumenta tambin la del primer formante (en eleje vertical), mientras que en las posteriores Ia], [cl, [:l y[u] al incrementarse la frecuencia del fundamental trecre-

    210190

    Etee.40:ll.l

    13

  • ce la del primer forrnante. En el primer.caso se trata deu.tta correlacin positiva

    -a valores altos de una variablecorresponden valores altos de la otra- y en el segundo de.rna correlacin negativa, en la que los valores d una va_riable aumentan mientras que los de la otra disminuyen.

    Esta interreiacin entre variables puede tambin cuan_tificarse mediante el llamado coeficiente de correlacin,una cifra cuyos valores oscilan entre + 1 y

    - 1, de modo

    que obtenemos uri valor de + 1 en las correlaciones per_fectamente positivas, un valor de 0 cuando no existe irin-guna correlacin, J/ Lln valor de - I cuando sta es total-mente negativa. El valor del coeficiente de correlacinen las vocales anteriores de la tabla 6 es de 1, mientrasque el de las posteriores es de

    - 1. Adems, los test de

    correlacin permiren tambin obtener un grado de sig-nificacin, con el que se puede conocer la-probabilidadde encontrarnos un determinado valor en el coeficiente decorrelacin si las 'dos variables fueran independientes.En los casos anterires, el nivel de significacin es 0, in-dicando.que no tendramos ninguna probabilidad de en-contrar un valor de I si las dos variables estudiadas fue_ran independientes. Como se ve, se trata tambin aqude aplicar los crjrelios para falsar Ia hjptesis nula.

    Sin embargo, antes de ter-rninar este apartado es pre-ciso sealar que el coeficiente de correlacin indica iim_plemente la existencia de una relacin matemtica entredos variables y que, por lo tanto, no puede interpretarsedirectamente como'una relacin de causa a efecto. El tra-tamiento estadsticcl rt,oS cotfirma simplemente que cuan-do un valor aumenth tambin aumenta el otro ( vicever-sa), y que esto sucede de forma sistemtica; las explica-ciones cleben buscar.se en el marco de la fontica,

    "n rn.

    etapa posterior de interpretacin de los resultados.

    I

    6.3.4. Otros tipos de anlisis

    El anlisis de ias correlaciones es til cuando en nues-tro estuciio intervie:ren slo dos variables; sin embargo.

    164

    en muchos casos esto no ser as. Por ejemplo, partien-do de los datos de la tabla 2 podra interesarnos esttldiarla relacin entre las tres variables que all se presentan:lugar de articulacin de la consonante, vocal adyacentee informante. Habitualmente encontramos una combi-nacin de variables dependientes e independientes, yqueremos estudiar su interaccin. Se habla entonces denlisis multivariante, y para llevarlo a cabo existen di-versas tcnicas como la regresin mltiple, el anlisisdiscriminante y el anlisis factorial.

    La regresin mltiple permite evaluar la influencia si-multnea de varias variables independientes sobre unavariable dependiente, superando las limitaciones de lacorrelacin, que slo es til para examinar simultnea-mente dos variables. Complicando ligeramente el diserodel experimento sobre la velarizacin de la consonanteIateraf en los bilinges cataln-castellano que aprendenfrancs, podramos introducir dos tipos de corpus: un cor-pus ledo y un corpus que consistiera en una convel'sa-Lin

    "tpotttnea con un hablante francs nativ

  • lores de estos tres pat"metr
  • Do de la fontica. **Butler (1985) y **Woods, Fletcher yill,ghes (1986) presentan las nociones estadsticas ms rele-uuni". para los esturtios lingsticos, el primero a un nivel msbsico que el segundo; ambos libros no se limitan a los pro-blemas de la adquisicin de segundas lenguas, sino que exa-minan casos ms generales; Woods, Fletcher y Hughes, porejemplo, basan muchas de sus explicaciones en un anlisis deullo.-.t del VOT y mencionan tambin experimentos sobreconfi-rsiones de consonantes, utilizando adems ejernplos rela-cionados con la adquisicin de la primera lengua y la patolo-ga del lenguaje. Anshen (1978) se centra en los conceptosstadsticos necesarios para el anlisis de variables sociolin-gsticas siguiendo planteamientos labovianos. Milroy (1987)edica su captulo al anlisis de las variables fonolgicas ensociolingstica, presentando algunos de los problemas pro-pios del tratamiento estadstico.

    1B

    7

    LA PRESENTACIN DE LOS RESULTADOS

    Hasta este punto hemos seguido paso a paso las eta-pas propias de los estudios experinrentales tal como seesquematizaban en la figura 3 dei segundo captulo. Sehan tratado los problemas relacionaCos con la delimita-cin del campo de trabajo y la formulacin dei las hip-tesis, las diversas tcnicas para constituir un co.pus yseleccionar a los informantes, las precauciones a la horade realizar las grabaciones y algunos mtodos para lapresentacin y el tratamiento de los datos cuantitativos.Acabamos el captulo anterior insistiendo en la necesi-dad de diferenciar la estadstica de la interpretacin delos datos, y una vez hnalizada esta ltima etapa nos en-contramos ya en condiciones de trasladar al papel el re-sultado de nuestro trabajo.

    La forma final depender, natural.mente, del destina-tario. Un artculo para una revista especializada no tie-ne las mismas caractersticas que un trabajo de investi-gacin realizado en el marco de unltercer ciclo univer-sitario o que una tesis doctoral; una exposicin oral enun congreso o en un seminario ser necesariamente di-ferente de una presentacin escrita. Sin embargo, exis-ten una serie de puntos en comn en la presentacin de

    t69