Download - 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos [email protected].

Transcript
Page 1: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Creación de un corpus oral espontáneo de errores de estudiantes de español

Leonardo Campillos Llanos

[email protected]

Laboratorio de Lingüística Informática

Universidad Autónoma de Madrid

Page 2: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

EsquemaObjetivos del proyecto

Metodología

Participantes

Tipología de L1s

Composición y diseño

Tipología de errores

Procesamiento de los datos

Evaluación de la interfaz de consulta

Resultados

Page 3: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Nivel investigador

-Análisis de errores de la producción oral.

-Investigación sobre adquisición del español/LE:

· ¿Cuáles son los errores más frecuentes?

· ¿Errores comunes y diferentes entre hablantes de distinta L1?

→ mejorar los materiales de enseñanza de ELE.

Nivel tecnológico

-Desarrollo de herramienta para formación de profesores.

Objetivos

Page 4: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Metodología

Page 5: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

-Estudiantes de ELE (casi todos de 20-26 años).

-Nivel intermedio-bajo (A2 y B1, Marco Común Europeo de Referencia).

-N=40, distribuido en:

• 9 grupos de 4 estudiantes con la misma L1:

• 1 grupo mixto de 4 estudiantes con otras L1s:

• 20 de A2 y 20 de B1

Italiano Inglés JaponésFrancés Alemán ChinoPortugués Neerlandés Polaco

Coreano Finés

Turco Húngaro

Participantes

Page 6: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Tipología de lenguas maternas

Page 7: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Composición y diseño del corpus

Page 8: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Datos orales:

Entrevistas semiespontáneas entre investigador y aprendiz.

15-20 minutos cada grabación.

Tareas: (similares a exámenes de idiomas)

-Descripción de dos fotografías

-Dos tareas narrativas a partir de viñetas:

- Diálogo espontáneo: opinión sobre la comida.

Metodología de obtención de datos

Page 9: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

- Fenómenos del habla:

Solapamientos p. ej., *AIS: <sí> ///

*ENT: [<] <muy bien> /// Pausas y alargamientos

Repeticiones y reformulaciones

Titubeos y palabras fragmentadas…

p. ej., bueno &mm / lo → [/] lo mezclas ///

- Fenómenos de la adquisición del español:.

Deformaciones p. ej., mejillones {%err: melijones}

Pronunciación errónea … p. ej., tranquilo {%pho: [tɾan'kwilo]}

Transcripción de las grabaciones

Page 10: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Metadatos

Información sobre la grabación: fecha, lugar…

Información sobre el estudiante:

Información personal:

Perfil lingüístico:

☐Edad ☐Origen geográfico

☐ Papel en la grabación ☐ Profesión / ocupación

☐ Nivel educativo

☐Nivel de español (MCER) ☐Tiempo de estudio de español

☐ Lengua materna ☐ Tiempo en país hispanohablante

☐ Lenguas habladas

Page 11: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Muestra de datos XML (metadatos)

Page 12: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Muestra de datos XML (metadatos)

Page 13: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Muestra de datos XML (metadatos)

Page 14: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

-Sincronización texto-sonido:

Sincronización manual (programa Transana©).

Muestra de datos XML (texto)

Page 15: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Clasificación según estos criterios:

– Nivel lingüístico: gramática, vocabulario, pronunciación…

– Categoría: artículo, verbo, adjetivo…

– Mecanismo de cambio: orden incorrecto, deformación…

p. ej., *higenias (higiene)

– Tipo: ser/estar, conjugación, tiempo de pasado…

p. ej., *escribido (escrito)

– Etiología (causa del error): interlingüístico, desconocido...

p. ej., to realize ('darse cuenta') ≠ realizar

Tipología de errores

Page 16: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

-Etiquetas de errores:

Muestra de datos XML (errores)

Page 17: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Procesamiento de los datos

-Tecnología empleada en la interfaz:

·XML: transcripciones, errores, códigos de tiempo y metadatos.

·XSLT: visualización del contenido (transcripciones, metadatos y errores).

·XQuery: consultas predefinidas para la base de datos.

·Base de datos nativa (eXist, W. Meier).

Page 18: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Muestra de la interfaz-Criterios de búsqueda:

-Menú de consulta:

Page 19: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Muestra de la interfaz

-Información sobre el estudiante:

Page 20: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Muestra de la interfaz

-Indicación y explicación sobre el error:

Page 21: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Muestra de la interfaz

-Recuento de errores:

Page 22: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Muestra de la interfaz

-Versión

en inglés:

Page 23: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Evaluación de la interfaz-Evaluación formativa: cuestionario a 22 profesores de español/LE.

Opinión sobre los términos para describir erroresOpinión sobre los criterios de búsqueda

Ausencia de algún tipo de error

Conclusiones de la evaluación:

Sugerencia de guía didáctica.

Simplificación de la búsqueda y la visualización de resultados.

Page 24: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Disminución de errores al progresar de nivel.

Alta tasa de ambigüedad en oralidad: ≈ 1 ambiguo cada 23.

Resultados del análisis de errores

Page 25: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Mayor número de errores: gramática

Resultados del análisis de errores

Page 26: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Sobre análisis de errores:

Baralo, M. (1999) Errores y fosilización. Fundación Antonio de Nebrija.

Corder, P. (1971) Idiosyncratic Dialects and Error Analysis. International Review of Applied Linguistics, 9(2): 147-60.

Fernández López, S. (1997) Interlengua y Análisis de Errores en el aprendizaje del español como lengua extranjera. Madrid: Edelsa.

García, J. (2005) “Una propuesta de tipología de errores”. Actas del XXIII Congreso de Lingüística Aplicada. Universidad de les Illes Balears.

James, C. (1998) Errors in Language Learning and Use. London/N.Y.: Longman.

Vázquez, G. (1999) ¿Errores? ¡Sin falta! Madrid: Edelsa.

Sobre corpus orales:

Cresti, E. & Moneglia, M. (2005) C-ORAL-ROM. Integrated Reference Corpora for Spoken Romance Languages. Amsterdam/Philadelphia: J. Benjamins.

Díaz Rodríguez, L. (2007) Interlengua española. Barcelona: Printulibro.

Mitchell, R., Dominguez, L., Arche, M. J., Myles, F. & Marsden, E. (2008) SPLLOC: A new database for Spanish second language acquisition research. EuroSLA Yearbook, 8, 287-304.

Referencias

Page 27: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

Sobre etiquetado de errores en corpus:

Díaz-Negrillo, A., y J. Fernández-Domínguez. 2006. "Error tagging systems for learner corpora". RESLA, 19: 83-102

Granger, S. (2003) “Error-tagged Learner Corpora and CALL: a promising synergy”, CALICO Journal, 20 (3), pp. 465-480.

Granger, S., Kraifa, O., Pontona, C., Antoniadisa, G. & V. Zampa (2007) “Integrating learner corpora and natural language processing”. ReCALL Journal, 19, pp. 252-268.

Izumi, E. et al. 2004. “SST speech corpus of Japanese learners’ English and automatic detection of learners’ errors”. ICAME Journal 28, pp. 31-48.

Lüdeling, A., Walter, M., Kroymann, E. & Adolphs, P. (2005) “Multi-level error annotation in learner corpora”. Proceedings of Corpus Linguistics Conference 2005.

Nicholls, D. (2003) “The Cambridge Learner Corpus – error coding and analysis for Lexicography and ELT”. En Archer et al. (eds.) Proceedings of the Corpus Linguistics Conference 2003, pp. 572-581.

Sobre la evaluación formativa de la interfaz:

-Colpaert, J. (2004) Design of online interactive language courseware: conceptualization, specification and prototyping: research into the impact of linguistic-didactic functionality on software architecture Universiteit Antwerpen, Faculteit Letteren en Wijsbegeerte, Departement Taalkunde. Tesis doctoral.

-Ward, M. (2006) “Using Software Design Methods in CALL”. Computer Assisted Language Learning, vol. 19, nº. 2-3, Special edition of CALL: Software Design and Development, pp.129-147.

Referencias

Page 28: 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es.

16 de noviembre de 2011 VI Jornadas MAVIR

¡Gracias por su atención!

¿Comentarios?

Leonardo Campillos Llanos

[email protected]

Laboratorio de Lingüística Informática

Universidad Autónoma de Madrid

Proyecto financiado por la Comunidad de Madrid y el Fondo Social Europeo.