Disculpa, por favor, que haya tardado tanto tiempo en...

63
VILE – Estudio acústico de la variación inter e intralocutor en español http://liceu.uab.es/~joaquim/VILE.html TAREA 2: CONSTITUCIÓN DEL CORPUS TAREA 2.1: ANÁLISIS DE LOS RECURSOS EXISTENTES / TAREA 2.3: SELECCIÓN DE LOS MATERIALES PARA EL ANÁLISIS Primera parte ANÁLISIS DE LOS CORPUS ORALES EXISTENTES EN ESPAÑOL El proyecto VILE se propone, entre sus objetivos, “la realización de estudios basados en un número de hablantes que hasta ahora no ha sido habitual en los estudios de fonética española”. Requisito esencial para ello era el acceso a las bases de datos de voz realizadas con anterioridad sobre nuestra lengua. En el momento actual, y dejando al margen los corpus privados, contamos con una gran cantidad de recursos orales, ficheros de voz obtenidos en condiciones controladas, tanto desde el punto de vista electrónico, como acústico y fónico. Se trata de un conjunto de datos obtenidos casi siempre al amparo de amplios proyectos de investigación financiados por entidades públicas. Su reutilización nos parece no sólo conveniente, sino también necesaria. Sólo si éstos corpus no cubrían aspectos que el estudio bibliográfico revelara como esenciales para el estudio de la variación inter e intrahablante, el equipo de V. MARRERO, Análisis de los corpus orales existentes en español. 1 Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Transcript of Disculpa, por favor, que haya tardado tanto tiempo en...

Page 1: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

TAREA 2: CONSTITUCIÓN DEL CORPUS TAREA 2.1: ANÁLISIS DE LOS RECURSOS EXISTENTES / TAREA 2.3: SELECCIÓN DE LOS MATERIALES PARA EL ANÁLISIS Primera parte

ANÁLISIS DE LOS CORPUS ORALES EXISTENTES EN ESPAÑOL

El proyecto VILE se propone, entre sus objetivos, “la realización de estudios basados en un número de hablantes que hasta ahora no ha sido habitual en los estudios de fonética española”. Requisito esencial para ello era el acceso a las bases de datos de voz realizadas con anterioridad sobre nuestra lengua. En el momento actual, y dejando al margen los corpus privados, contamos con una gran cantidad de recursos orales, ficheros de voz obtenidos en condiciones controladas, tanto desde el punto de vista electrónico, como acústico y fónico. Se trata de un conjunto de datos obtenidos casi siempre al amparo de amplios proyectos de investigación financiados por entidades públicas. Su reutilización nos parece no sólo conveniente, sino también necesaria.

Sólo si éstos corpus no cubrían aspectos que el estudio bibliográfico revelara como esenciales para el estudio de la variación inter e intrahablante, el equipo de investigación de este proyecto se plantearía la obtención de una base de datos propia.

Han sido documentadas numerosas bases de datos orales en español1, unas generales, otras específicas, algunas fácilmente accesibles, y otras más restringidas. Teniendo en cuenta múltiples factores hemos seleccionado para nuestro trabajo las siguientes:

1. ALBAYZIN es la gran base de datos oral desarrollada en España para reconocimiento y procesado del habla. Se llevó a cabo entre 1992 y 1998, con financiación de la CICYT, por un consorcio que agrupaba, bajo la coordinación de la Universidad Politécnica de Cataluña, a los principales grupos de investigación en tecnología del habla del país.

Locutores 152 hombres, 152 mujeres.

1 Se encontrará una relación al final de este apartado

V. MARRERO, Análisis de los corpus orales existentes en español. 1

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 2: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

Canal Grabación microfónica en cámara aislada

Tareas Lectura.

- Corpus fonético: 700 frases fonéticamente equilibradas, en dos subcorpus, uno de aprendizaje con 4 locutores y otro de prueba con 40 locutores

- Corpus de aplicación: 3900 frases sobre datos geográficos

- Corpus Lombard: 50 frases de las del corpus fonético leídas a alta intensidad mientras el locutor es sometido a un ruido intenso por los auriculares.

Ficheros de voz

15.600 grabaciones de frases fonéticamente equilibradas

Referencias Moreno et al. (1993); Casacuberta et al. (1992); Díaz Verdejo et al. (1998)

2. EUROM1. “La primera base de datos oral europea realmente multilingüe”. Gracias al proyecto Esprit SAM-A, el español se incorporó a esta gran proyecto de la CE, grabada en las mismas condiciones, con el mismo número de sujetos y un corpus equivalente para once lenguas de nuestro entorno.

Locutores 30 hombres

30 mujeres

Canal grabación en cámara anecoica

Tareas Lectura:

- dígitos aislados y concatenados

- 82 logatomos: Ci/a/uCa, CCala, aisladas y en contexto

- 10 palabras aisladas (parte de la frase portadora de los logatomos):

pon, siempre, lejos, pones, aquel, quieto, di, igual, orando, dijo.

- 40 párrafos con cinco oraciones cada uno (comunes), con bastante variación suprasegmental (interrogativas, exclamativas,

V. MARRERO, Análisis de los corpus orales existentes en español. 2

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 3: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

enumeraciones...)

- 50 frases específicas para cada lengua; las del español prestan especial atención a los fonemas palatales, la vibrante múltiple, las fricativas anteriores, secuencias vocálicas, grupos consonánticos, etc.

Ficheros de voz

Sin considerar las tareas de dígitos, 770 grabaciones, entre pseudopalabras, frases y párrafos.

Referencias Llisterri et al. (1993)

3. MULTEXT. Se trata de un subconjunto de EUROM al que se ha prestado una especial atención en el nivel prosódico. F0 original y estilizado, con transcripción y codificación sobre 15 párrafos seleccionados de los 40 que ofrece EUROM

Locutores 5 hombres, 5 mujeres

Canal grabación en cámara anecoica

Tareas Lectura:

- quince párrafos de EUROM1 por hablante; duración total: 52:21’.

Extraído el F0, estilizado y resintetizado. Ofrece transcripción ortográfica, forma de onda, codificación simbólica del F0 (7 categorías), F0 original y curva estilizada superpuesta.

Ficheros de voz 150 párrafos leídos

Referencias Campione y Veronis (1998) y Llisterri (1996)

4. GAUDÍ, “un gran corpus en español para identificación y verificación de hablantes”2. Ha sido desarrollado recientemente en colaboración entre la Escuela Universitaria de Ingenieros de Telecomunicaciones (Universidad Politécnica de Madrid) y el Servicio de Policía Judicial de la Dirección General de la Guardia Civil, con el objetivo específico de contribuir a estudiar la identificación de hablantes.

2 Traducción del título de Ortega et al. 1998.

V. MARRERO, Análisis de los corpus orales existentes en español. 3

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 4: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

Locutores 224 hombres-104 de ellos constituyen el subcorpus AHUMADA

231 mujeres

Canal - grabación in situ (varios micrófonos) en habitación silenciosa

- grabación telefónica

Tareas Lectura:

- dígitos aislados y concatenados

- frases y texto equilibrados (éste con tres ritmos: normal, rápido y lento)

- un texto específico para cada sujeto.

Habla espontánea:

- Descripción libre de más de un minuto

Ficheros de voz Sin considerar la lectura de dígitos, 6.825 grabaciones

Referencias Ortega et al. 1998; Ortega et al. 2002.

5. SpeechDat: 4000 locutores, agrupados por edades y modalidad de habla, fueron incorporados a este gran proyecto europeo, que continúa ampliándose en la actualidad. Sin embargo, su orientación hacia los teleservicios conlleva que el canal de recogida de datos sea exclusivamente telefónico, con las limitaciones acústicas aparejadas.

Locutores 2061 hombres, 1939 mujeres, agrupados por edades (mayoría 15-29) y modalidades de habla (5 regiones de toda España)

Canal telefónico

Tareas Lectura:- dígitos aislados y concatenados, cantidades de dinero- letras (deletreo), palabras aisladas, fechas, nombres propios, frases de tiempo, interrogativas absolutas y 9-10 frases equilibradas o fónicamente ricasHabla espontánea:- un número de teléfono, un día de la semana, una fecha y un

V. MARRERO, Análisis de los corpus orales existentes en español. 4

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 5: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

sitioLéxico, diccionario fonético y transcripción ortográfica con comentarios

Ficheros de voz 18.036 frases grabadas

Referencias Moreno, A. y R. Winski (1996). Más info. http://www.speechdat.org

De las tablas anteriores se deduce la enorme cantidad de datos que se pueden obtener de las cinco bases mencionadas.

Para el análisis del nivel segmental, miles de realizaciones de todos los fonemas del español pueden estudiarse en distintas condiciones de naturalidad, desde estímulos creados “ad hoc”, como la lista de pseudopalabras de EUROM1 (el extremo más artificial, pero también el de mayor control de variables), hasta las muestras de habla espontánea que ofrece Gaudí, pasando por el tipo de tarea más frecuente en todas estas bases de datos: la lectura de frases, -fonéticamente equilibradas o fonéticamente ricas- y la lectura de párrafos o textos.

La enorme cantidad de sujetos reclutados para formar la base de SpeechDat nos permitirá, a pesar de las limitaciones del canal telefónico, analizar factores como la duración segmental.

La influencia de variables como la intensidad o el esfuerzo articulatorio puede analizarse a partir del corpus Lombard en EUROM1, mientras que los efectos del ritmo de habla o velocidad de elocución pueden ser analizados utilizando el texto equilibrado de AHUMADA-GAUDÍ

Sin embargo, el estudio del nivel suprasegmental no ofrece las mismas posibilidades; prácticamente sólo podemos contar con los 20 párrafos con modalidades oracionales interrogativas y exclamativas de EUROM1.

Para terminar, nos centraremos en la aplicación de esos recursos orales disponibles al objetivo principal de este proyecto: el estudio de la variación.

Variación intralocutor.

Para caracterizar los elementos que cambian y los invariables en distintas emisiones de un mismo hablante necesitamos grabar a cada sujeto repitiendo los mismos estímulos en diferentes momentos.

Es lo que se hizo en EUROM con las pseudopalabras, que fueron emitidas cinco veces por cada uno de los doce locutores que las leyeron.

V. MARRERO, Análisis de los corpus orales existentes en español. 5

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 6: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

En GAUDí, tanto las frases como el texto fónicamente equilibrados fueron leídos en tres sesiones de grabación distintas3, controlando el tiempo transcurrido entre ellas (entre 20 y 40 días); en el caso del texto, además podemos analizar los efectos del ritmo de elocución en la variación del habla de un mismo sujeto, puesto que en cada sesión se les pidió una lectura lenta, otra rápida y otra a ritmo normal.

ALBAYZIN nos permite observar qué parámetros resultan modificados y cuáles no cuando 20 locutores leen una serie de frases en silencio y luego las repiten intentando sobreponer su voz a un ruido intenso.

Si nos interesa la variación de estilos intralocutor, es decir, qué cambia en cada persona cuando habla espontáneamente o cuando lee, podemos recurrir al minuto de habla espontánea de GAUDí, intentando seleccionar fragmentos comparables con los de las diversas tareas de lectura de esos mismos locutores. Sin embargo, ni esta base de datos ni ninguna de las anteriores ha sido diseñada específicamente para comparar la variación inter o intralocutor en distintos estilos de habla, por lo que posiblemente sólo obtendremos resultados limitados al respecto.

Variación interlocutor

En este caso enfocamos nuestro análisis hacia los elementos segmentales y suprasegmentales que difieren de un sujeto a otro, aún emitiendo las mismas secuencias, con el mismo estilo de habla, y sin diferencias geográficas o sociales que puedan ser responsables de la variación; serían, en último término, los rasgos que determinan la individualidad de un hablante frente a aquellos que son comunes al habla de una comunidad.

Para abordar esta tarea contamos con todo el repertorio de locutores de las cinco bases de datos: más de dos mil en SpeechDat, leyendo frases fónicamente ricas, y agrupados por edades y modalidades de habla; 445 en GAUDÍ, en lectura (frases equilibradas y un texto de casi 180 palabras) y en la descripción espontánea que ya se ha mencionado; 304 en ALBAYZIN, todos hablantes de castellano central, a los que se pidió la lectura de frases equilibradas y 60 de EUROM1 que leyeron frases y párrafos.

En conclusión, consideramos que el nivel segmental en tareas de lectura está sobradamente representado en los corpus orales disponibles actualmente para el español. El nivel suprasegmental y estilos de habla más espontáneos requerirían, en una segunda fase del trabajo, la obtención de recursos propios para este proyecto.

3 Hubo seis sesiones de grabación para cada locutor, pero no tenemos en cuenta aquí las tres realizadas mediante aparato telefónico.

V. MARRERO, Análisis de los corpus orales existentes en español. 6

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 7: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

REFERENCIAS

CAMPIONE, E. Y VERONIS, J (1998): “A multilingual prosodic database”. ICSLP 98. Disponible en ftp://ftp.icp.inpg.fr/pub/elra/icslp98_mult.pdf

CASACUBERTA et al. (1992): “Desarrollo de corpus para investigación en tecnologías del habla”. Boletín de SEPLA, 12, 35-42.

DÍAZ VERDEJO et al. (1998) : “Albayzin: a Task-Oriented Spanish Speech Corpus”. LREC, Granada, 28-30 mayo 98. Pp. 497-502

LLISTERRI, AGUILAR, BLECUA, MACHUCA, DE LA MOTA, RÍOS, MORENO Y SALAVEDRA (93): Spanish EUROM1: Phonetic Contents ¿?

LLISTERRI, J.(1996): “Report on Prosody Tools Efficiency and Failures (Spanish EUROM)”. En Llisterri, J. (Ed.) Prosody Tools Efficiency and Failures. WP 4 Corpus. T4.6 Speech Markup and Validation. Deliverable 4.5.2. Final version. 15 October 1996. LRE Project 62-050 MULTEXT. http //liceu.uab.es/~joaquim/publicacions/Prosody_ tools_96.pdf

MORENO, A. Y R. WINSKI (1996): SpeechDat (M) Spanish Database.

MORENO et al. (1993): “Albayzin Speech Database”. EuroSpeech 93, 175-178

ORTEGA et al. (1998): “Ahumada: A Large Speech Corpus in Spanish for Speaker Identification and Verification” IEEE Intl. Conf. on Acoust. Speech and Signal Proc. Proc. ICASSP-98, pp. 773-776, Seattle

OTROS RECURSOS ORALES EXISTENTES EN ESPAÑOL4

A) GENERALES

ROARS (Robust Analytical Speech Recognition System)

El objetivo de este proyecto no es construir una base de datos, sino mejorar un sistema analítico de reconocimiento de habla (basado en sílabas, fonemas y rasgos fonéticos), para llegar a procesar palabras y diálogos en español y francés.

En una primera fase han construido bases de conocimiento que permitan al sistema resistir la variación inter e intralocutor, además de la presencia de ruido.

En la segunda se centraron en aplicaciones específicas, como el control de tráfico aéreo4 No incluimos los desarrollados por empresas privadas, de difícil o imposible acceso: CEUDEX, SPATIS, VESTEL, VOCATEL, VOGATEL, TANGORA, IBM Voice Type, etc.

V. MARRERO, Análisis de los corpus orales existentes en español. 7

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 8: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

MATE

Como en el caso anterior, el fin principal de este proyecto no fue la creación de una base de datos, sino la de una herramienta para anotar y transcribir corpus orales de diálogo. En alguna parte de su página web comentan que utilizaron el corpus de diálogo de Telefónica para una subtarea.

UAM: Corpus Corpus Oral de Referencia del Español Contemporáneo

Corpus “transliterado”. Se permite el acceso a una muestra de audio en mp3.

CREA oral

De momento, no es posible el acceso al audio

B) ESPECÍFICOS

Nombres propios, números, dígitos o letras

ONOMÁSTICA, Multilanguage Pronuntiation Dictionary of Proper Names

NÚMERO, PA85/86, TIC 0448/89, etc

Análisis léxico

DIES-RTP – Universidad de Alcalá de Henares – 750.000 palabras

Análisis de la conversación

ACUAH – Universidad de Alcalá de Henares – 800 minutos de grabación (algo más de 13 horas)5

Corpus de conversación coloquial6- Universidad de Valencia – 300 horas

Análisis del discurso

Análisis del Discurso Público Actual7 – Universidad de La Coruña – 100 horas

Análisis del Discurso Oral8 – Universidad de Granada – 100 horas

Variación dialectal o sociolectal

The Sala Project – SpeechDat Across Latin America5 Sin datos en la página web de la UAH6 Más información: http://www.uv.es/~valesco/7 En su mayor parte, se trata de vídeos tomados de la televisión. Más información: http://www.udc.es/dep/lx/proj/adpa/8 Citado por Montero Martínez; sin datos en la página web de la UGR

V. MARRERO, Análisis de los corpus orales existentes en español. 8

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 9: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico. Disponible un CD-ROM

Caracas-77: Estudio sociolingüístico de Caracas, 1977.

Caracas-87: Estudio sociolingüístico de Caracas, 1987.

CEAP: Corpus de Encuestas en Asunción de Paraguay.

CSMV: Corpus Sociolingüístico de Mérida-Venezuela.

CSC: Corpus para el estudio del español hablado en Santiago de Compostela.

COVJA: Corpus oral de la variedad juvenil universitaria del español hablado en Alicante.

ALMECOR: Universidad de Granada

PRESEEA Corpus Sociolingüístico del español

Fonética Acústica Experimental del Español de Canarias- U. La Laguna

ILSE – Universidad de Almería

Variedades Urbanas Andaluzas – U. Granada y U. Málaga

V. MARRERO, Análisis de los corpus orales existentes en español. 9

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 10: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

TAREA 2: CONSTITUCIÓN DEL CORPUS TAREA 2.1: ANÁLISIS DE LOS RECURSOS EXISTENTES / TAREA 2.3: SELECCIÓN DE LOS MATERIALES PARA EL ANÁLISIS Segunda parte

INTRODUCCIÓNEn la reunión del 10 de diciembre se acordó, a la vista del informe previo sobre recursos orales existentes en español, seleccionar para el estudio acústico las siguientes bases de datos, por ser las más accesibles y adecuadas a nuestros objetivos:

- AHUMADA- GAUDÍ

- Albayzín

- EUROM1 y el subconjunto MULTEXT

- SpeechDat, para estudios sobre duraciones, que no resultan afectadas por el filtro telefónico.

Este segundo informe las describe con más detalle.

1. AHUMADA-GAUDÍEste corpus, desarrollado entre la EUIT de la Politécnica de Madrid y la Guardia Civil, no se distribuye normalmente en CD, sino “bajo demanda” a Javier Ortega y su equipo, que colocan en un servidor ftp la selección pedida.

GAUDÍ es la base más amplia. Está formada por 455 locutores, agrupados en dos bloques: los locutores que sirvieron de modelo (“target speakers”) y los que se consideran “impostores”:

Modelos – Hombres – 104 (constituyen el subcorpus AHUMADA)

- Mujeres - 101

Impostores – Hombres – 120

- Mujeres – 130

No tenemos información dialectal de los sujetos, y las grabaciones se realizaron todas en Madrid.

V. MARRERO, Análisis de los corpus orales existentes en español. 10

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 11: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

Tareas

Dejando a un lado las tareas con dígitos, a todos los locutores se les pidió:

a) Lectura de 10 frases fónicamente equilibradas: 409 fonemas

b) Lectura de un texto de 179 palabras, también equilibrado (712 fonemas), a tres velocidades distintas (normal, rápida y lenta). Se incluye en el Anexo 3.

c) Lectura de un texto específico para cada locutor.

d) Habla espontánea durante más de un minuto, describiendo cuadros y dibujos que tenían preparados, o sus vacaciones, el lugar donde nacieron, etc.

Todas esas tareas se realizaron en seis sesiones de grabación, tres “in situ” con micrófono y tres por teléfono. Las sesiones microfónicas fueron la 1, la 3 y la 5, separadas entre sí por intervalos de entre 20 y 40 días.

Grabaciones

Por lo tanto, limitándonos a las grabaciones con micrófono, las 10 frases han sido leídas tres veces por cada uno de los 455 locutores. Eso supone 13.650 frases.

El texto fue leído nueve veces por cada locutor, tres a velocidad normal, tres a mayor velocidad y tres más lentamente. Un total de 4.095 repeticiones.

Las grabaciones se realizaron en una habitación silenciosa, no en cámara insonorizada, por lo que es previsible la aparición de algún ruido, incluso en frecuencias bajas, superpuesto a los primeros armónicos y la barra de sonoridad. Como pasa en este sonograma, correspondiente a 1.71 segundos del texto, leído a velocidad normal por un locutor masculino. En la carpeta \AHUMADA está el archivo de sonido correspondiente.

V. MARRERO, Análisis de los corpus orales existentes en español. 11

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 12: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

CONCLUSIÓN

Variación intralocutor. Para el estudio de la variación intralocutor en esta base de datos disponemos tanto de las frases como del texto equilibrados (repetidas tres y nueve veces respectivamente), con un intervalo entre grabaciones controlado, y superior en todos los casos a los 20 días.

Además, para el texto, contamos con distintos ritmos de habla o velocidades de elocución: tres lecturas lentas, tres normales y tres rápidas para cada uno de los 455 locutores.

Variación interlocutor. Sumando las tres repeticiones por sujeto, cada frase ha sido leída 1365 veces, 432 por locutores masculinos y 393 por locutores femeninos. El texto, considerando sólo una velocidad de elocución, ha sido repetido las mismas veces; y si englobamos los tres ritmos, pues el triple.

Por otra parte, éste es el único corpus con habla espontánea, lo que nos permitiría analizar la variación entre estilos tanto intralocutor como interlocutor, aunque

V. MARRERO, Análisis de los corpus orales existentes en español. 12

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 13: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

tendríamos que seleccionar muestras comparables entre las lecturas y el habla espontánea

2. ALBAYZÍN2.1. INTRODUCCIÓN

Corpus desarrollado por un consorcio constituido por seis grupos de investigación, procedentes de las Universidades de Granada, Politécnica de Cataluña (equipo coordinador), Politécnica de Madrid (Dptos de Ingeniería Electrónica y de Señales, Sistemas y Radiocomunicaciones), Politécnica de Valencia y Autónoma de Barcelona.

Se diseñó entre 1991 y 1992, y se terminó de completar en 1998.

Consta de tres bloques:

- Corpus fonético genérico (no restringido sintáctica o semánticamente) que reproduciría las características de la lengua española. -> UAB y UPC

204 locutores / 6800 frases9

Subcorpus de aprendizaje

4 leen 200 frases (tarea FA1)

160 leen 25 frases (tarea FA2)

1000 de ellas (40 locutores) segmentadas y etiquetadas

Subcorpus de prueba

50 locutores leen 50 frases (tarea FP)

- Corpus específico, restringido, enfocado a una tarea de reconocimiento concreta; en este caso, es una base de datos sobre geografía española. -> UPV y UGR

136 locutores / 6800 frases

88 leen 50 frases (subcorpus de aprendizaje, tarea GA)

48 leen 50 frases (subcorpus de prueba, tarea GP)

[los 4 de FA1 y 32 de FA2]

- Corpus con efecto “Lombard”, grabado con los locutores sometidos a un considerable nivel de ruido, para comprobar el reconocimiento en ambientes hostiles. -> UPM

40 locutores leen 50 frases / 2000 frases9 Según datos incluidos en el CD.

V. MARRERO, Análisis de los corpus orales existentes en español. 13

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 14: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

[los 4 de FA1, 16 de FP, 12 de GA y 8 de GP]

En total se grabó a 304 locutores, 152 hombres y 152 mujeres, pero distribuidos desigualmente en la diversas tareas. Todos eran hablantes de castellano central, entre 18 y 55 años, con predominio de los menores de 30.

2.2. CONTENIDOS DE LOS CD

CD1 y CD2: corpus fonético

CD3 y CD4: corpus geográfico

CD5: corpus Lombard

Ficheros comunes en los cinco CD:

1) Ficheros de texto “Albayzin” (descripción resumida del proyecto) y “Copyright”.

2) Carpeta “:\Document”

a. Subcarpetas de validación y contrato

b. Artículos:

- Moreno el al. (1993): “Albayzin Speech Database”. En EuroSpeech 93, 175-178

- Casacuberta et al. (1992): “Desarrollo de corpus para investigación en tecnologías del habla”. Boletín de SEPLA, 12, 35-42. También en inglés.

- Díaz Verdejo et al. (1998) : “Albayzin: a Task-Oriented Spanish Speech Corpus”. LREC, Granada, 28-30 mayo 98. Pp. 497-502

- Nadeu, C. (1998): “Albayzin. Descripción resumida”. Edición para los CD

- Marino, J.B. (1992): “Albayzin. Especificaciones de locutores y elocuciones”. Edición para los CD.

- Page Ibérica S.A. “Informe de grabación”.

3) Carpeta “:\Locutor”

Contiene tres ficheros .dbf, con la descripción de los locutores. “Speaker.dbf” los engloba a todos. Se indica, para cada uno de ellos

Código locutor

Nombre

Sexo

Fecha de nacimiento

V. MARRERO, Análisis de los corpus orales existentes en español. 14

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 15: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

Lugar de nacimiento

Residencia anterior

Estudios/Profesión

Lugar de nacimiento del padre

Lugar de nacimiento de la madre

Dificultades de audición (ninguno las tenía)

2.2.1. Primer disco (FONCD1) – Subcorpus fonético, primera parte

Contiene las tareas FA1 y FA2 (corpus fonético de aprendizaje).

El listado de frases aparece en ficheros de texto, en el subdirectorio \CF\TEXTOS:

“FA.txt”: 200 frases equilibradas repetidas por los 4 locutores de la tarea FA1

“FT.txt”: 500 frases equilibradas

Los ficheros de voz aparecen en el subdirectorio E:\CF\SUB_APRE

Contiene 164 subcarpetas, una para cada locutor.

Las carpetas correspondientes a los locutores AA, AB, MA y MB contienen las 200 frases de la tarea FA1. Estos locutores son los únicos del primer CD que también grabaron bajo el efecto Lombard las 50 primeras.

Los 160 locutores restantes leyeron sólo 25 frases, correspondientes a la tarea FA2.

2.2.2. Segundo disco (FONCD2) Subcorpus fonético, segunda parte.

Los ficheros de voz en el subdirectorio E:CF\SUB_PRUE completan el subcorpus fonético con la tarea FP (corpus fonético de prueba).

Contiene 50 carpetas, cada una de las cuales corresponde a un locutor e incluye 50 frases, seleccionadas de las 500 que fueron preparadas para esta tarea.

Los que más nos interesan son los 16 locutores que también grabaron bajo el efecto Lombard las mismas 50 frases que aquí leen en elocución normal:

E:\CF\SUB_PRUE\

DG – DH – DI – DJ – HD – HE – KD – KE – PG – PH – PI – PJ – UD – UE – YD - YE

2.2.3. Quinto disco (LOMBCD)

Contiene frases leídas bajo el efecto Lombard, es decir, mientras el locutor recibe un ruido de 87 dB SPL por los auriculares, lo cual le obliga a aumentar la intensidad de su voz, puesto que en las instrucciones, además, le piden que “intente

V. MARRERO, Análisis de los corpus orales existentes en español. 15

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 16: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

oírse a él mismo”. Es interesante para comprobar el efecto de la variación de intensidad inter e intralocutor.

Se grabaron bajo estas condiciones tanto frases del corpus fonético como frases del corpus geográfico. Me limito a comentar las primeras.

E:\CL\CF_LOMB\SUB_APRE

Aquí aparecen las 4 subcarpetas correspondientes a los cuatro locutores (AA, AB, MA y MB) que leyeron las 200 frases de la tarea FA1. En este caso, los cuatro han leído las 50 primeras de entonces, cuyo listado se incluye en el Anexo.

Por lo tanto, cada una de esas 50 frases está repetidas 8 veces, 4 en elocución normal y 4 con voz forzada.

E:\CL\CF_LOMB\SUB_PRUE

16 locutores, seleccionados entre los que participaron en la tarea FA2. Han leído 200 de aquellas frases, de la 301 a la 500. Según la siguiente distribución:

Frases 301-350 351-400 401-450 451-500

Locutores DG DH DI DJ

HD HE KD KE

PG PH PI PJ

UD UE YD YE

No incluyo las 200 frases, porque sería alargar demasiado el anexo. Están en “FT.txt” en el CD1, subdirectorio \CF\Textos.

2.3. CONCLUSIÓN

VARIACIÓN INTRALOCUTOR

Creo que uno de los aspectos más interesantes de Albayzín es la comparación entre las frases fonéticamente equilibradas del corpus fonético, tanto el de aprendizaje como el de prueba, y esas mismas frases leídas por esos mismos locutores bajo el efecto Lombard, es decir, percibiendo un ruido intenso que les obliga a aumentar la intensidad o el esfuerzo vocal.

Entre los ficheros que les envío con este informe pueden ver dos sonogramas de la misma frase (se incluye también el archivo de sonido), leída en condiciones normales y bajo este efecto.

V. MARRERO, Análisis de los corpus orales existentes en español. 16

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 17: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

VARIACIÓN INTERLOCUTOR

Las frases fonéticamente equilibradas han sido leídas por ocho locutores distintos:

- las 200 de la tarea FA1 fueron leídas por los cuatro locutores de FA1 y por los locutores AA, AB, MA y MB de FA2. 4 hombres y 4 mujeres

- Las 500 de la tarea FA2 por los 154 locutores restantes, en 20 grupos de 25 frases, a ocho repeticiones por grupo.

Como último comentario, me ha sorprendido un poco ver que la calidad de grabación de estas muestras de voz no siempre es óptima, a pesar de haberse realizado en cámara aislada. Vean, por ejemplo, esta secuencia, “no es la primera vez que me hacen este chiste”, frase DAFP0001.

3. EUROM13.1. INTRODUCCIÓN

V. MARRERO, Análisis de los corpus orales existentes en español. 17

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 18: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

La colaboración española en la base de datos oral multilingüe EUROM1 contó con 60 locutores, 30 masculinos y 30 femeninos, que se repartieron varias tareas de lectura. Nosotros vamos a describir las que aparecen en el tercer y cuarto CD (es decir, todas excepto la lectura de dígitos aislados y concatenados).

Incidiremos especialmente en la subtarea “passages", correspondiente a la lectura de párrafos, textos cortos con cierta variación entonativa. También las dos tareas con pseudopalabras (con frase portadora en el CD3 y sin ella en el CD4) pueden interesarnos, como se verá en las conclusiones.

3.2. DESCRIPCIÓN DEL CONTENIDO - CD 3 Y 4.

3.2.1. CD-3.

Contiene lectura de palabras en frase portadora, lectura de frases y lectura de textos.

3.2.1.1. Pseudopalabras

\Carriers -> lectura de logatomos en frase portadora

\Few

\ CFG: 70 ficheros de texto con 16 líneas cada uno, correspondientes a campos de información sobre los ficheros, de CAT10442 a RAZ10757

\XSO: 70 ficheros de texto con información sobre cada sesión de grabación y etiquetado (lugar, fecha, hora, texto...)

\XSS: 70 ficheros de voz. Parámetros para abrirlos con CoolEdit Pro:

Sample rate: 22050 Hz

Channels: mono

Resolution: 16-bit

Data formatted as: PCM-Intel

Detalle del contenido:

CARRIERS FEW – XSS AT = Pon -- siempre

2 sujetos: C= mujer; R=hombre AU = Pones -- lejos

AV = aquel -- quieto

AW = dijo -- orando

V. MARRERO, Análisis de los corpus orales existentes en español. 18

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 19: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

AX = dí -- igual

AZ = repetición de las palabras de la frase portadora

pala/bala/tala... AT10442 AU10453 AV10464 AW10721 AX10744

pila/pula/tila/tula... AT20433 AU20433 AV20465 AW20722 AX20745

prala/trala/crala... AT30444 AU30444 AV30466 AW30723 AX30746

lad/lab/las/lal/lar/lan/lai/lau AT40445 AU40445 AV40467 AW40724 AX40747

laba/labi/labu/lada/ladi/ladu... AT50446 AU50446 AV50468 AW50725 AX50748

tata/teta/tita/tota/tuta AT60447 AU60447 AV60469 AW60726 AX60749

pon/siempre/pones/lejos... AZ10534-8

3.2.1.2. Frases específicas de la lengua (español)

\Sentence

\Few

\CFG: 50 ficheros de texto, de BAF30397 A TAF40639

\SSO: 50 ficheros de texto con información sobre otras tantas sesiones de grabación de los párrafos

\SSS: 50 ficheros de voz.

\Many

\CFG: 50 ficheros de texto, de AAF30397 a VCF30112

\SSO: 50 ficheros de texto con información sobre otras tantas sesiones de grabación de los párrafos

\SSS: 50 ficheros de voz.

Se trata de la lectura de 50 frases, agrupadas de cinco en cinco, por parte de un número variable de locutores masculinos y femeninos. En el subdirectorio “Many” siempre son cinco repeticiones (a veces 3 mujeres y 2 hombres; otras veces a la inversa). En el subdirectorio “Few” el número de repeticiones varía mucho (de una a ocho), aunque el

V. MARRERO, Análisis de los corpus orales existentes en español. 19

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 20: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

resultado final es de nuevo 50.

Participaron en esta tarea 60 locutores, 10 en el subdirectorio “many” (cada uno de los cuales leyó 25 frases) y 50 en el subdirectorio “Few” (cada uno de los cuales leyó 5 frases).

En el Anexo 2 se pueden ver los grupos de cinco frases y el número total de repeticiones de cada uno. En el fichero de Excel llamado “EUROM1 Sentences y Carrier” que acompaña a este informe aparece en detalle la distribución por locutores.

3.2.1.3. Textos

\ Passage

\Few

\CFG: 150 ficheros de texto con 16 líneas de códigos de campo.

Ficheros de BAP01307 a TAR90632

\PSO: 150 ficheros de texto con información sobre cada sesión de grabación

\PSS: 150 ficheros de voz, con las mismas características de arriba.

\Many

\CFG: otros 150 ficheros de texto, de AAO90398 a VCP10115

\PSO: ídem

\PSS: 150 ficheros de voz.

Aquí tenemos, en mi opinión, la parte más interesante de EUROM1 para nuestros fines. Se trata de la lectura de un texto breve, de unas 56-57 palabras de media (aunque hay bastantes variación, desde el más corto, con 39 palabras, al más largo, con 81), cuyo listado aparece en el Anexo 2 de este documento.

El subdirectorio FEW contiene los ficheros de 10 locutores (5 hombres y 5 mujeres) leyendo 15 párrafos cada uno. En el subdirectorio MANY encontramos 50 locutores (26 hombres y 24 mujeres), que leen tres párrafos cada uno. Les incluyo en la documentación un fichero de Excel titulado “EUROM1 Passages Disco3”; en la hoja titulada “Sujetos” se detallan sus códigos y un mínimo comentario sobre ellos (totalmente subjetivo).

El promedio de repeticiones por párrafo es de 7, con un máximo de 9 en cinco de ellos y un mínimo de 6 en otros once.

V. MARRERO, Análisis de los corpus orales existentes en español. 20

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 21: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

En cuanto a modalidad oracional (y. como consecuencia, patrones entonativos), 20 de ellos son textos declarativos, o afirmativos, sin variaciones entonativas. Pero encontramos también 17 párrafos que contienen estructuras interrogativas (en algunos casos, más de una por párrafo), tanto relativas (siete casos) como absolutas, destacando las interrogativas-imperativas, como fórmulas de cortesía encabezadas por la perífrasis “podría + infinitivo”. Por último, en tres textos aparecen estructuras exclamativas (o por lo menos representadas entre signos ortográficos de exclamación en los textos leídos por los locutores):

Nº Tipo Subtipo Comentario

20 Declarativa No hay no interrogativas ni exclamativas en el párrafo

5 Interrogativas Qué Interrogativa relativa encabezada por el pronombre "qué": "¿Qué puedo cenar...?"

1 Cuándo interrogativa relativa encabezada por "cuándo": "¿Cuándo se dará cuenta...?"

1 Por quéInterrogativa relativa encabezada por "por qué": "¿Y por qué no muestra...?"

2 Int. Absoluta Interrogativa absoluta, en general: ¿"Es el servicio de...?"

4 Interr.-imper Podría+inf

Interrogativa absoluta con valor de imperativo cortés; encabezada por "podría" en la perífrasis poder+inf: "¿Podría darme/hacer...?"

5 Pron+poder+inf Similar a la anterior, pero encabezada por pronombre personal átono: ¿"Me podrían/pueden dar/hacer...?"

1 P.f.+podría+infIdéntica estructura, pero encabezada por la fórmula de cortesía "por favor": "¿Por favor, podría enviarme...?"

1 Podría+p.f.+inf Estructura similar a las anteriores pero intercalando "por favor" en la perífrasis: "Podría, por favor, indicarme...?"

2 Podría+inf+p.f.En este caso, la fórmula "por favor" aparece después de la perífrasis poder+inf.: ¿"Podría ponerme, p.favor, con...?"

1 Exclamativas Exclamativa

Aparecen entre signos de exclamación en el texto que se dio a leer a los locutores, pero estructura general: "¡A pesar de todo, no me da ninguna pena!"

V. MARRERO, Análisis de los corpus orales existentes en español. 21

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 22: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

1 Excl-tanTexto entre exclamaciones y estructura con adverbios "tan(to)": "¡Tenía tantas ganas de veros!"

1 Excl-p.q.Texto entre exclamaciones y estructura encabezada por "por qué": "¡Por qué no fumigaría a tiempo!"

La distribución concreta de estos tipos y subtipos de modalidad oracional en los 4º párrafos se adjunta en el Anexo 2. El listado completo de los textos está en un fichero titulado “EUROM1 textos”, que se adjunta a este informe.

3.2.2. CD 4.

Completa la lista de logatomos, ahora sin frase portadora.

\CVC

\Few

\CFG: 300 archivos de texto, de BAS10341 a TAS60659

\ZSC: ídem con información sobre las sesiones de grabación

\ZSS: 300 archivos de voz, correspondientes a la lectura de varias secuencias de vocales y consonantes, como se indica en la siguiente tabla:

CVC FEW – ZSS Sin frase portadora

Mujeres 5 repet. cada secuencia x el mismo locutor

pala/bala/tala... BAS10-11 CAS10 EAS10 EBS10 HAS11

pila/pula/tila/tula... BAS20-21 CAS20 EAS20 EBS20 HAS21

prala/trala/crala... BAS30-31 CAS30 EAS30 EBS30 HAS31

lad/lab/las/lal/lar/lan/lai/lau BAS40-41 CAS40 EAS40 EBS40 HAS41

laba/labi/labu/lada/ladi/ladu... BAS50-51 CAS50 EAS50 EBS50 HAS51

tata/teta/tita/tota/tuta BAS60-61 CAS60 EAS60 EBS60 HAS61

Hombres 5 repet. cada secuencia x el mismo locutor

pala/bala/tala... NAS10 NBS11 QAS10 RAS10 TAS10

V. MARRERO, Análisis de los corpus orales existentes en español. 22

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 23: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

pila/pula/tila/tula... NAS20 NBS21 QAS20 RAS20 TAS20

prala/trala/crala... NAS30 NBS31 QAS30 RAS30 TAS30

lad/lab/las/lal/lar/lan/lai/lau NAS40 NBS41 QAS40 RAS40 TAS40

laba/labi/labu/lada/ladi/ladu... NAS50 NBS51 QAS50 RAS50 TAS50

tata/teta/tita/tota/tuta NAS60 NBS61 QAS60 RAS60 TAS60

Nº de logatomos por serie: “pala/bala/tala...”: 19

“pila/pula/tila/tula...”:19

“prala/trala/crala...”: 12

“lad/lab/las...”: 8

“laba/labi/labu...”: 19

“tata/teta/tita...”: 5

3.3. CONCLUSIÓN

Variación intralocutor. Para una descripción fonética que limite mucho la fuente de variabilidad, en habla de laboratorio será muy adecuado usar los logatomos de EUROM1. Para ello contamos con los 300 archivos del CD4, en el que cada secuencia de sonidos es repetida cinco veces por 10 locutores. Y en el CD3\carriers, dos locutores repiten esas mismas pseudopalabras, también cinco veces, pero variando la frase portadora.

Ni las frases equilibradas ni los textos han sido leídos varias veces por el mismo locutor, por lo que no podemos utilizarlos para analizar la variación intralocutor.

Variación interlocutor.

- Frases fonéticamente equilibradas: aunque el número de locutores por grupo de frases ha oscilado un poco, la mayoría han sido repetidas 11 veces.

- Textos: el número de repeticiones también es variable, pero la mayor parte de los textos cuenta con seis o siete locutores distintos.

En cuanto al nivel suprasegmental, las frases que más nos interesan, porque son interrogativas o exclamativas, presentan un número mínimo de seis locutores por texto, y en algunos casos llegan a nueve.

V. MARRERO, Análisis de los corpus orales existentes en español. 23

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 24: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

4. SpeechDat (M) Spanish Database4.1. Introducción

Los 1002 hablantes que participaron desde sus teléfonos en SpeechDat realizaron muchas más tareas de las que yo describo aquí: lectura de dígitos (también en habla espontánea), cantidades de dinero, deletreo, palabras aisladas, fechas (también en habla espontánea), nombres propios, frases de tiempo...

Pero las limitaciones del canal telefónico nos decidieron a analizar sólo la parte de frases fonéticamente ricas, para el estudio de duraciones, correspondiente al tercer y último CD en que se distribuye la base (en el primero están todas las grabaciones de los locutores masculinos y en el segundo todas las de los femeninos).

Según la documentación incluida en el CD (“Spanish.doc”), las oraciones provenían de textos modificados, sin palabras extranjeras y fáciles de pronunciar. En total, se diseñaron 1000 frases diferentes. Cada hablante emitió una media de 9 oraciones, pero la distribución no fue homogénea, con una máximo de 19 repeticiones y un mínimo de 4. (Sin embargo, en la hoja de cálculo donde se incluyen esas frases se puede apreciar que 479 de ellas sólo se recogieron una vez. ¿?).

Las frases fueron transcritas fonéticamente por ustedes (), lo cual permite que dispongamos de una estadística de aparición de fonemas, bifonos y trifonos que se añade como fichero de Excel a este informe.

Distribución de los locutores

Hombres: 508

Mujeres: 494

Grupos de edad:

Entre 15 y 30: 530

Entre 30 y 45: 283

Entre 45 y 60: 156

Más de 60: 23

Desconocida: 10

Área dialectal:

Noroeste: 122

V. MARRERO, Análisis de los corpus orales existentes en español. 24

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 25: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

Central: 241

Norte: 128

Sur: 152

Este: 340

Desconocida: 19

4.2. Descripción del contenido.

DISCO CD02 – 1002 hablantes, sólo las frases fonéticamente ricas

Ficheros:

Subdirectorio principal:

Copyright

Identificación del disco

Léeme (todo recogido aquí)

FIXED0ES [disco de frases fonéticamente ricas]

DOC

Design.doc-información general: Word se cuelga cuando lo abro

Spanish.doc- descripción detallada.

Valrep – Informe sobre validación; todo OK

Summary.txt – un montón de números; de vez en cuando indicaciones de ruido o saturación

Fonemas / Bifonos / Trifonos: datos estadísticos sobre Number of phonemes in the phonetic sentences database”

[se incluye en el fichero de Excel “SpeechDat-Frases”]

INDEX

Contents.asc – Listado de frases, con información sobre locutor, edad, procedencia y sexo.

[se incluye en el fichero de Excel anterior]

PROMPT

Senten – 999 frases

V. MARRERO, Análisis de los corpus orales existentes en español. 25

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 26: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

[Se incluyen en el fichero de texto “Listado de frases”]

SOURCE

Copying.txt – Permiso de utilización

GZIP_124.EXE – Programa de (des)compresión en archivo autoextraíble comprimido

TABLE

Lexicon – Todo el léxico con la frecuencia de aparición y transcrito fonéticamente. Caracteres ASCII

Speaker – La misma información sobre los hablantes que aparece en Contents.asc

CD02

BLOCK00 a BLOCK014

SES(ión)02 A SES(ión)1419

Nombres de archivo con extensión ESO=etiquetas SAM

Nombres de archivo con extensión ESZ = ficheros de habla comprimidos

Se descomprimen con Winzip

Los he abierto con CoolEdit-Pro, con los siguientes parámetros:

8000 Hz – Mono – 8 bit

A-law 8-bit

En total tenemos 18.036 frases grabadas, en 1.017 carpetas

4.2.1. Sonograma

En la imagen siguiente puede apreciarse el tipo de sonido que compone esta base de datos: limitado a 4000 Hz y con mucho ruido superpuesto. Corresponde a la secuencia “Se reunieron en cónclave, y votaron en orden cronológico”, leído por una locutora. En el subdirectorio de SpeechDat se incluye también la señal de voz.

V. MARRERO, Análisis de los corpus orales existentes en español. 26

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 27: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

4.3. CONCLUSIÓN

Variación intralocutor: en ningún caso los locutores repitieron varias veces la misma frase, por lo que no es posible analizar la variación intralocutor con esta base de datos.

Variación interlocutor: Como decíamos antes, la media de repeticiones por frase fue de 9. Pero normalmente corresponden a diferentes zonas geográficas, con lo que el factor dialectal incide como una fuente de variación suplementaria.

En todo caso, SpeechDat es la base con mayor número de locutores de las disponibles; si nos interesa un estudio de duraciones y variabilidad interlocutor, sería la que más datos nos puede ofrecer, puesto que controla también las variables sexo, edad y área dialectal.

V. MARRERO, Análisis de los corpus orales existentes en español. 27

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 28: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

CONCLUSIÓN GENERALResumen por bases de datos

AHUMADA-GAUDí

Var. intralocutor

Estímulos Nº repeticiones Nº locutores

10 frases equilibradas 3 455

Texto equilibrado [ritmo] 3 x 3 ritmos 455

Habla espontánea / lectura ¿? Tres sesiones 455

Var. interlocutor

10 frases equilibradas 1365 455

Texto equilibrado 1365 x 3 ritmos 455

Habla espontánea / lectura ¿? 1365 sesiones 455

ALBAYZIN

Estímulos Nº repeticiones Nº locutores

Var. intralocutor

250 frases equilibradas [intensidad] 2 (1 normal + 1 Lombard)

20

Var. interlocutor

200 frases equilibradas (FA1) 8 8

500 frases equilibradas (FA2) 8 154

EUROM1

Estímulos Nº repeticiones Nº locutores

Var. 82 logatomos CD3 5 en <> frases p. 2

V. MARRERO, Análisis de los corpus orales existentes en español. 28

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 29: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

intralocutor

82 logatomos CD4 5 10

Var. interlocutor

82 logatomos 60 12

50 frases equilibradas 11 de media 60

40 párrafos de unas 56-57 palabras 6-7 de media 60

SpeechDat

Estímulos Nº repeticiones Nº locutores

Var. interlocutor

999 frases fonéticamente ricas 9 de media 1002

Resumen por tipo de variación

VARIACIÓN INTRALOCUTOR

1) Logatomos

a) 82 de EUROM1 x 5 repeticiones x 12 locutores (2 de ellos con varias frases portadoras)

2) Frases equilibradas

a) 10 de GAUDÍ x 3 repeticiones x 455 locutores

b) 250 de ALBAYZIN x 2 repeticiones (normal y Lombard) x 20 locutores

3) Texto equilibrado

a) Texto 179 palabras de GAUDÍ x 3 repeticiones a 3 ritmos distintos x 455 locutores

4) Habla espontánea / lectura

a) Un minuto de habla espontánea de GAUDÍ x 3 sesiones x 455 locutores

Variación interlocutor

1) Logatomos

V. MARRERO, Análisis de los corpus orales existentes en español. 29

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 30: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

a) 82 de EUROM1 repetidos 60 veces por 12 locutores

2) Frases equilibradas

a) 10 de Gaudí repetidas 1365 veces por 455 locutores

b) 200 de ALBAYZIN (FA1) repetidas 8 veces por 8 locutores distintos

c) 500 de ALBAYZIN (FA2) repetidas 8 veces por 154 locutores distintos

d) 50 de EUROM1 repetidas un número variable de veces (11 de media) por 60 locutores distintos

3) Frases fonéticamente ricas

a) 999 de SpeechDat, repetidas un número variable de veces (9 de media) por 1002 locutores distintos

4) Párrafos prosódicamente marcados

a) 20 de los 40 párrafos de EUROM1, leídos un número variable de veces, entre 6 y 7 de media, por 60 locutores

5) Texto equilibrado

a) El de GAUDÍ, leído 1365 veces a ritmo lento, otras tantas a ritmo rápido y otras tantas a ritmo normal, por 455 locutores

6) Habla espontánea

a) El minuto de grabación recogido en cada una de las tres sesiones a los 455 locutores de GAUDÍ.

Resumen por fenómenos

- Nivel segmental: con los datos que tenemos a nuestra disposición podemos analizar todos los sonidos del español en distintas condiciones de naturalidad,

- Lectura de pseudopalabras (con o sin frase portadora), sería el extremo más artificial, pero también el de mayor control de variables – Sólo en EUROM1

- Lectura de frases equilibradas o fonéticamente ricas – En todas las bases de datos

- Lectura de párrafos o textos – Sólo en EUROM1 y GAUDÍ

- Habla espontánea – Sólo en GAUDÍ

- Entonación: sólo podemos contar con los 20 párrafos con modalidades oracionales interrogativas y exclamativas de EUROM1.

V. MARRERO, Análisis de los corpus orales existentes en español. 30

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 31: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

- Intensidad: EUROM1 – comparación entre las frases leídas en condiciones normales y las leídas mientras el locutor es sometido a un ruido intenso por los auriculares.

- Ritmo de habla: comparación de las lecturas del texto en GAUDí, a tres velocidades distintas.

- Para un estudio de duraciones con mayor número de sujetos tenemos las frases fonéticamente ricas de SeechDat.

ANEXO 1 - ALBAYZÍN

Frases comunes entre el subcorpus fonético y el de efecto Lombard

250 frases, leídas dos veces por cada uno de los cuatro locutores de la tarea FA1; en el CD1 la lectura normal y en el CD5 bajo efecto Lombard.

1 - Francia, Suiza y Hungr'ia ya hicieron causa com'un.

2 - Mi primer profesor de lengua fue L'opez Garc'ia.

3 - Guillermo y Yolanda practicaban ciclismo con Jaime.

4 - El primero en Guip'uzcoa y el segundo en Valladolid.

5 - Fue aquel hombre tan gordo el que se acerc'o en globo.

6 - 'Eramos un grupo de profesores de lengua y literatura.

7 - Yo no recuerdo en mi pueblo ning'un caso de triquinosis.

8 - 'Eramos un grupo de gente bastante distinguida.

9 - Despu'es ya se hizo muy amiga nuestra.

10 - Los achaques de Jes'us remitieron sin causar disgustos.

11 - Su viuda se cas'o con un profesor de ingl'es de all'a.

12 - Durante tus estudios has hecho alg'un viaje.

13 - Dos a~nos y medio en Vilanova ya fueron suficientes.

14 - Pero en el fondo le tengo cari~no.

15 - Puede haber deficiencia de agua en Logro~no.

16 - La sangre se revuelve con estas migas de pan blanco.

17 - Los yernos de Ismael no engordar'an los pollos con hierba.

18 - Mi mujer es profesora de Lengua y Literatura.

V. MARRERO, Análisis de los corpus orales existentes en español. 31

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 32: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

19 - Sab'ia un poquito de ingl'es pero muy poco.

20 - En Julio hac'iamos en Burgos otra vez la preparaci'on.

21 - Un ni~no muy rico que se llama Ignacio.

22 - No en lenguaje hablado pero s'i en lenguaje escrito.

23 - Era muy gordo, muy gordo y con un tup'e inmenso.

24 - Ellos, ya desde un principio, se quedan con el dinero.

25 - Despu'es de la mili ya me vine a Catalu~na.

26 - Estuve en Guernica dando clase de lengua y literatura.

27 - Firmaban como c'antabros incluso en tumbas funerarias.

28 - Aunque ellos ya engrasaron los ejes como yo les ense~n'e.

29 - Habla un poco de su prepotencia y de su orgullo.

30 - Trabajaba en Granollers y viv'ia en Barcelona.

31 - Es uno de los recuerdos m'as bonitos que guardo.

32 - Vimos que el ambiente hab'ia cambiado mucho.

33 - Bajamos un d'ia al mercadillo de Palma.

34 - Por las noches organizaban bailes y fiestas.

35 - Yo entr'e en filas a cumplir el servicio militar.

36 - Uno llevaba el chorizo, el otro llevaba el gazpacho.

37 - Con Gema y con Blanca me veo por las noches en casa.

38 - Subimos un rato al apartamento y luego ya nos fuimos.

39 - Le voy a contar por qu'e he estudiado lengua.

40 - Llevas quince a~nos fuera de la monta~na.

41 - Existe un viento del norte que es un viento fr'io.

42 - Nos dio el disgusto m'as grande de nuestra vida.

43 - Se hacen chorizos y salchichones de dos clases.

44 - Antes de primero de bachiller ya te traumatizaban.

45 - La profesora que tengo tampoco es muy agradable.

46 - Yo tengo derecho a que a m'i se me entienda.

V. MARRERO, Análisis de los corpus orales existentes en español. 32

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 33: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

47 - Al segundo d'ia empezaron a llegar colegios.

48 - En estos pueblos preciosos de Vizcaya y Guip'uzcoa.

49 - Me he tomado un caf'e con leche en un bar.

50 - Dentro de muy poco pues va a estar la mitad cubierto.

ANEXO 2. EUROM1 - LECTURA DE FRASES - DISCO 3 – “Sentences”

Repeticiones FRASES

6Te cambio el salchichón por chorizo y vino

Ya te he dicho más de una vez que llueve

La rueda chafó las nueces, y yo lo vi

Esta ciudad tiene muchos charcos en el suelo

Voy a guisar el pollo

13Guarda bien tu llave del armario

Soñó que vivía en el paraíso

El cielo amenazaba chubascos

Felipe y yo es tuvimos aquí una vez

El alfarero giraba el torno admirablemente

11Estaba absorto, pensando en las musarañas

Me gusta el adjetivo indigente

El hombre inspiraba confianza

Mi abuelo me animó a estudiar solfeo

Es un proyecto de cooperación internacional

V. MARRERO, Análisis de los corpus orales existentes en español. 33

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 34: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

11Detrás de una paz larga, llega una guerra

En Madrid tienen la gracia cañí

Sabadell debe ser una ciudad sosegada

"Mientras la ciudad duerme" es un buen libro

En este grupo 73 personas son nuevas

11Le obsequiarion con una joya y flores

Le prohibió ingerir alimentos

Obtuvieron muy buenas calificaciones en los exámenes

El oftalmólogo le recomendó llevar gafas

Sólo hizo una llamada por teléfono

5El colibrí es un ave diurna y el búho nocturna

El niño gritaba y lloraba antes de comer

Pepe y Rosa comen pan con jamón

El rey jamás volverá

Los reyes inspiraban confianza

11El coche se paró en el llano

El chocolate estaba riquísimo

No le gusta el lomo en los bocadillos

El atleta pudo con su adversario

El adjunto a dirección salió a la calle

V. MARRERO, Análisis de los corpus orales existentes en español. 34

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 35: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

11Yo quiero la nuez grande

Tomad zanahorias y os pondréis morenos

Fue por hierba al prado

El niño no tenía bastante con la suya

El sacerdote se puso la casulla

11Mi marido se compró un peugeot blanco

El arcángel San Gabriel es el más conocido

Fue declarado apto

Los bárbaros invadieron el imperio romano

Se quedó indocumentado en la isla

10Fue admirable la incursión en la zona

Se le infectó la herida

Se rompió la cápsula de la medicina

Estuvo adscrito durante un año

Mejoró las piñas con injertos

EUROM1 – LECTURA DE TEXTOS – “PASAJES” DISCO 3

A) MODALIDAD ORACIONAL

Nº repet

Nº párrf TIPO

Posición en párrafo TIPO

9 1Pron+poder+inf Inicial Pron+poder+inf Final

V. MARRERO, Análisis de los corpus orales existentes en español. 35

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 36: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

7 2Pron+poder+inf Inicial

9 3Podría+inf Inicial

7 4Podría+inf Inicial Podría+inf Final

6 5Qué Inicial

6 6Qué Inicial

7Declarativa

6 8Podría+p.f.+inf Final

9Declarativa

10Declarativa

6 11Int absoluta Intermedia Podría+inf+p.f. Final

12Declarativa

13Declarativa

6 14Cuándo Final

15Declarativa

8 16Qué Intermedia Por qué Final

17Declarativa

18Declarativa

19Declarativa

20Declarativa

V. MARRERO, Análisis de los corpus orales existentes en español. 36

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 37: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

7 21Exclamativa Final

9 22Excl-tan Intermedia

23Declarativa

24Declarativa

25Declarativa

8 26Excl-p.q. Intermedia

27Declarativa

7 28Int absoluta Final

7 29Excl-tan Intermedia

30Declarativa

31Declarativa

7 32Pron+poder+inf Intermedia

7 33Int absoluta Final

8 34Pron+poder+inf Intermedia

35Declarativa

36Declarativa

37Declarativa

7 38Podría+inf Intermedia Qué Interm

39Declarativa

6 40P.f.+podría+inf Intermedia Pron+poder+inf Final

V. MARRERO, Análisis de los corpus orales existentes en español. 37

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 38: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

B) TEXTOS NO DECLARATIVOS EN EUROM 1

1. ¿Me podría poner con el departamento de reparaciones? Mi televisor se estropeó hace tres semanas. Ustedes me lo vinieron a recoger el día trece y me prometieron que estaría arreglado al cabo de una semana. Comprendo que hayan podido tener problemas para conseguir las piezas de recambio, pero me parece que el retraso es excesivo. ¿Me pueden dar una fecha concreta de una vez por todas?

2. ¿Me puedes decir qué ponen por televisión esta noche? Me apetece algo entretenido. Seguro que hay algún musical americano de los cincuenta. Realmente, hoy en día ya no los hacen como antes. Me pregunto qué pensarían aquellos actores si levantaran la cabeza y vieran los espectáculos de ahora.

3. ¿Podría darme una lista de los restaurantes que hay en el barrio de Gracia? Me gustaría encontrar alguno fuera delo corriente, algo exótico. Tal vez un restaurante japonés, por ejemplo. Lo que no quisiera es que fuera un vegetariano.

4. ¿Podría indicarme cuál es el mejor itinerario para ir de Finisterre a La Coruña? Tendría que estar allí sobre las diez y media de la mañana del sábado. Si el tren sale antes de las siete, me gustaría que hubiera vagón restaurante. Sé que FEVE tiene un servicio de reservas anticipadas. ¿Podría hacer la reserva por teléfono?

5. ¿Qué puedo cenar esta noche? Tengo un filete en la nevera. El problema es que como carne dos o tres veces a la semana. Quizás será mejor una ensalada. Ya sé, de camino para casa, pasaré por el restaurante chino y cogeré algo.

6. ¿Qué significará realmente mil novecientos noventa y dos para la gente de la calle? Será más sencillo cruzar fronteras para buscar trabajo, por supuesto. Podremos estudiar en un país y trabajar en otro. Incluso puede que sea posible empezar una carrera en un país y acabarla en otro. Me pregunto también cómo repercutirá en los precios.

8. Acabo de llegar a Londres, pero mi maleta ha ido a parar a Roma. Es imprescindible que la tenga mañana, porque soy diabético. Por favor, pida al encargado que averigüe su paradero rápidamente. Mientras tanto, necesito algunas medicinas. ¿Podría, por favor, ponerme en contacto con un hospital?

11. Buenos días, ¿es el servicio de pedidos por teléfono? Parece que ha habido algún error. Yo encargué un osito de peluche del catálogo y me han facturado una cortadora de césped. Y ni siquiera tengo jardín. ¿Podría ponerme, por favor, con el departamento de reclamaciones?

14. El niño está en el patio cortando un árbol para hacer leña. Cada vez que clava el hacha en el tronco, se desprenden astillas de madera. Los animalitos y los insectos

V. MARRERO, Análisis de los corpus orales existentes en español. 38

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 39: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

huyen para ponerse a salvo. Una vez más, el hombre ha destruido, sin pensarlo, el refugio de otros animales. ¿Cuándo se dará cuenta de que él depende más de ellos que ellos de él?

16. En las noches calurosas, me tumbo en la cama y miro por la ventana abierta de par en par. La luna me mira, parece que sonría alegre. Unas veces, parece grande y cercana, otras, pequeña y distante. ¿Qué hace en las noches que se ausenta? ¿Y por qué no muestra nunca su cara oculta?

21. La semana que viene una amiga mía tiene que ir al médico a ponerse unas inyecciones. Se va de vacaciones a la India y necesita vacunarse contra el cólera, la fiebre tifoidea, la hepatitis A, la polio y el tétanos. Quiere ponérselas todas de una vez, el mismo día. Si lo hace, se encontrará bastante mal. ¡A pesar de todo, no me da ninguna pena!

22. Lo siento, pero no voy a poder cenar con vosotros esta noche. ¡Tenía tantas ganas de volver a veros!. Por desgracia, he tenido un pequeño accidente cuando me estaba preparando para salir. Bajé a la bodega a buscar una botella de vino. Con las prisas, no encendí la luz. Tropecé en la oscuridad con un escalón que tenía una baldosa suelta y me he roto el tobillo.

26. Me apoyé en la valla del jardín y miré con tristeza el panorama que tenía delante. Las orugas habían devorado por completo el parterre. La huerta no era sino un erial. ¡ Por qué no fumigaría a tiempo ! Me dieron ganas de cubrirlo todo con cemento y convertir el jardín en un simple patio.

28. Necesitamos información sobre el servicio de restauración para un congreso con muchos participantes. Querríamos que nos trajeran la comida ya preparada para poder comer en la misma sala de reuniones. No disponemos de un espacio aparte para servirla. Habíamos pensado en un surtido de bocadillos, embutidos, quesos y frutas. ¿Tienen precios especiales para grupos o para instituciones académicas?

29. Odio los días de lluvia. Las calles están resbaladizas y cuando voy andando a la estación debo tener mucho cuidado. Me gustaría coger un taxi, pero no me lo puedo permitir. ¡Me pagan tan poco que apenas puedo comprarme unos zapatos nuevos! Espero encontrar a un marido millonario que me ponga un coche con chófer.

32. Por favor, necesito localizar a los señores Ramírez de Estepona. Hace tres meses vivían en el Paseo de la Victoria, número sesenta y tres; ahora viven en otra calle de la misma ciudad. ¿Me podría dar su nuevo número de teléfono? En la guía todavía aparecen con el número antiguo.

33. Por favor, póngame con el departamento de reclamaciones. Con la reparación de la cañería exterior de mi casa me han hecho una chapuza y se ha inundado el sótano. Su

V. MARRERO, Análisis de los corpus orales existentes en español. 39

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 40: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

Departamento de Servicios al Cliente no me ha hecho ningún caso. Me han dicho que todos los fontaneros están ocupados durante las dos próximas semanas. ¿Se supone que hasta que vengan tengo que utilizar el sótano como piscina?.

34. Por favor, quisiera encargar un lote de Navidad . Quiero una cesta con diez tabletas de turrones variados, cinco cajas pequeñas de polvorones y tres de mazapanes. Tienen que enviarlo a la casa del doctor Ruiz, en la calle de Alcalá, número dieciseis. ¿Lo podrían entregar el veintitrés de diciembre sin falta? Pero no digan quién hizo el pedido, es una sorpresa.

38. Soy la secretaria del Sr. Martínez. El mes próximo tiene que ir a cinco ciudades distintas ¿Podrían ayudarme a organizar el viaje? Tiene una serie de reuniones, entre nueve de la mañana y cinco de la tarde, en París, Brujas, Ginebra, Roma y Hamburgo, en días consecutivos. ¿Qué vuelos podría coger por la tarde? ¿Y qué alojamiento sería mejor? Al Sr. Martínez no le gustan las grandes cadenas de hoteles. Preferiría un hotel con ambiente familiar.

40. Tengo un problema con mi descalcificador. El nivel de agua es demasiado alto y el rebosadero gotea constantemente. ¿ Por favor, podría enviarme un técnico el martes por la tarde? Es el único día que me va bien esta semana. ¿ Me podrían llamar por teléfono antes de venir ?.

ANEXO 3. AHUMADA – GAUDÍ . TEXTO EQUILIBRADO

Hay algo ahí, en el aire, que cambia el sentido de las cosas. Ese viento suave vuela, te toca la cara mientras cuentas las hojas de los árboles. El agua corre buscando los campos. Al abrir las puertas de mi casa pienso: este país, una mañana más. A mi edad, comienzan a faltarme las fuerzas, ya casi no soy joven, y la muerte de mi mujer en la guerra me pesa mucho. Cuando el cuerpo llega a esa hora, la ciencia de los doctores no logra detener el paso del tiempo.

De niño, allá en mi tierra, solía pasarme los días revolviendo de un lado a otro. Poco a poco, los coches de la ciudad fueron llamando mi atención. Mi madre decía que tuviera cuidado, pero yo me creía muy mayor. Así que no tenía ni interés ni tiempo para mi propio signo.

Pero sigo, es cierto, cuántas cosas buenas encontré entre su gente. Si cuento los queridos veranos de entonces, no son siete, ni nueve ni veinte. Debe ser que soy niño de nuevo en este cuerpo triste.

V. MARRERO, Análisis de los corpus orales existentes en español. 40

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis

Page 41: Disculpa, por favor, que haya tardado tanto tiempo en …liceu.uab.cat/~joaquim/phonetics/VILE/protegidas/VILE_I/... · Web viewEn el momento actual, y dejando al margen los corpus

VILE – Estudio acústico de la variación inter e intralocutor en español

http://liceu.uab.es/~joaquim/VILE.html

V. MARRERO, Análisis de los corpus orales existentes en español. 41

Tarea 2: Constitución del corpus - Tarea 2.1: Análisis de los recursos existentes / Tarea 2.3: Selección de los materiales para el análisis