LC-2.1-Tipos de Córpora-S2015-1

Post on 12-Jan-2016

32 views 0 download

description

Apuntes de Lingüística de Corpus

Transcript of LC-2.1-Tipos de Córpora-S2015-1

Tipos de córpora Lingüística de Corpus S2015-1

Unidad 2.El Corpus como objeto: diseño y propósito

Contenido 2.1 Corpus, texto y lenguaje.

2.1.1 Tipos

2.1.2 Ejemplos de córpora

2.2 Recopilación y diseño.

2.3 Búsqueda, líneas de concordancia y su presentación.

2.4 Lo que se observa en las líneas de concordancia.

2.5 Qué hacer con los datos: Uso de fraseología.

2

Los córpora vs. los textos procesables por computadora

•Corpus como un conjunto electrónico recopilado de textos hablados o escritos cuya finalidad es algún tipo de análisis lingüístico.

•Texto (/discurso)

• Lenguaje 3

¿Qué es un corpus y qué no?

• En el sentido que se maneja en la lingüística de corpus, de otras colecciones de textos electrónicos.

• ¿Qué criterios deben cumplir los textos para conformar un corpus?

• ¿Qué es un corpus?

• A partir de esos criterios y definiciones, ¿qué no es un corpus según la LC?

4

¿Podríamos considerar corpus?

• Archivo (o colección) informatizado: se trata de un simple conjunto de textos electrónicos sin estructurar. El único criterio que prevalece a la hora de conformarlo es la disponibilidad de los textos.

• Biblioteca de textos electrónicos: se trata de un conjunto de textos electrónicos recogidos sin seguir criterios lingüísticos, pero guardados en un formato estándar.

5

Proyecto Gutenberg http://www.gutenberg.org/wiki/Main_Page

• Pionero en lo que se refiere a la recopilación de libros o textos electrónicos.

• Data de 1971, desde entonces, recoge textos clásicos, textos de literatura ligera y obras de referencia anteriores a 1923. Pueden leerse on-line

¿Es un corpus?, sí/no y por qué

7

Búsqueda de libros de Google • (antes Google Print): proyecto para digitalizar y

poner a disposición de los usuarios de Internet los fondos bibliográficos de las universidades de Stanford, Harvard, Princeton, Oxford, Michigan, Complutense de Madrid y de la Biblioteca Pública de Nueva York, entre otros centros que se suman al proyecto cada año.

8

Otras bibliotecas • The Oxford Text Archive, desde 1976 recoge textos en

veinticinco lenguas de autores individuales,

• Electronic Text Center, Biblioteca de la Universidad de Virginia, desde 1992 recoge textos en quince lenguas.

• Electronic Text Collections in Western European Literature, reúne textos literarios en diferentes lenguas europeas distintas del inglés.

• Biblioteca Virtual Miguel de Cervantes nace en 1999 por iniciativa de la Universidad de Alicante y el Banco Santander recopila las principales obras de literatura en español.

9

¿WWW es un corpus? • No en el sentido estricto del término porque no sigue unos

criterios de diseño y en muchos casos falta información sobre el número y procedencia de los textos.

• Sin embargo, hay que reconocer su utilidad, aunque sea con los debidos filtros, como fuente de información para los estudios lingüísticos.

• La web ofrece la posibilidad de acceder a un conjunto de textos, en formato electrónico, que son muestras reales de uso de la lengua de todo tipo y materia y que constituyen un proyecto abierto en cambio continuo, que pueden ser recuperados mediante las diferentes funciones de búsqueda de cualquier navegador.

10

Tipos de corpus La palabra corpus es un poco ambigua y actualmente se utiliza en un sentido general para referirse a cualquier tipo de compilación de textos.

Pero en realidad, hay que distinguir estas colecciones según el grado especificación en los criterios de selección.

12

McENERY

14

McEnery

15

Tipos de corpus

• Corpus informatizado (Computer corpus): colección de textos elaborado y ordenado según criterios lingüísticos externos (datos de los autores, medios de trasmisión utilizados, nivel social de los participantes, función comunicativa de los textos) o internos (patrones lingüísticos)

Los corpus pueden ser clasificados de diferentes maneras en función de los parámetros que se quieran utilizar

17

Tipos de corpus La palabra corpus es un poco ambigua y actualmente se utiliza en un sentido general para referirse a cualquier tipo de compilación de textos.

Pero en realidad, hay que distinguir estas colecciones según el grado especificación en los criterios de selección.

18

Clasificación de corpus • Los principales parámetros para clasificar los corpus

se centran en:

• 1. La modalidad de la lengua

• 2. El número de lenguas a que pertenecen los textos

• 3. El tamaño o cantidad de textos que conforman el corpus

• 4. Los límites del corpus

• 5. La variedad lingüística o el grado de especialización de los textos

• 6. El período temporal que abarcan los textos

• 7. El tratamiento aplicado al corpus

19

1. Según la modalidad de la lengua

• -corpus escritos

• -corpus orales

• -corpus mixtos.

20

1. Corpus orales: constituidos por señales de voz y sus transcripciones de anotación fonética.

2. Corpus de texto: constituidos por lengua escrita o por lengua oral transcrita.

3. Corpus multimodales: constituidos por datos orales como prosodia, gestos, movimientos de la boca, grabaciones sonoras y fílmicas.

21

• Lengua: oral vs. escrita

• Registros especiales: finanzas, medicina, filosofía, gastronomía, economía, etc.

• Parámetros demográficos: edad, grupo social, género, religión.

• Época: (1960-1974, 1975-1993) o (s. XII-XIV, s. XV-XVII, s. XVIII-XX)

• Medios de comunicación: libros, periódicos, correos electrónicos, radio

• Niveles lingüísticos: coloquial, formal, familiar, lengua infantil, lengua publicitaria.

• Tipos de textos: novelas, poemas, formularios, etc.

22

Corpus de textos

Están constituidos por lengua escrita o por lengua oral transcrita. Predominan, por lo general corpus textuales que se originan en su totalidad de textos ya que se pueden elaborar con bastante menos esfuerzo que otros corpus. Comúnmente, tienen varios cientos de millones de palabras. Otros tipos de corpus cuentan apenas con poco más de un millón de palabras.

23

• Corpus orales

Están constituidos por señales de voz, eventualmente con sus transcripciones de anotación fonética. Un corpus oral contiene grabaciones de llamadas telefónicas, entrevistas o programas de radio.

• Corpus multimodales

Están constituidos por otros datos orales como prosodia, gestos, movimientos de la boca, inclusive grabaciones sonoros y fílmicas (noticias, documentales).

24

2. El número de lenguas • 1. monolingües: textos en una sola lengua. Se recopilan con

el objetivo de dar cuenta de dicha lengua o variedad lingüística (o de un subconjunto de la misma).

• 2. Los corpus bilingües o multilingües están formados por textos de dos (bilingües) o más lenguas (multilingües) sin que, en principio, sean traducciones unos de otros y sin compartir criterios de selección. No obstante, este tipo de corpus son raros; son más habituales los corpus de dos o más lenguas que contienen textos elegidos según unos mismos criterios o que son traducciones mutuas:

• Comparables

• Paralelos

25

Corpus monolingües de control

• Corpus como medio de control

• corpus de control permiten complementar y probar la relevancia los datos extraídos de otro corpus; y orientan acerca de cuál es el recurso más adecuado para el tratamiento informático del objeto de estudio.

• Debido a la necesidad de comparar los datos obtenidos, se usan además varios corpus monolingües de control como el British National Corpus o Cobuild Bank of English en inglés o el CREA en español.

26

Corpus comparables (“paired texts”):

• Conjunto de textos en más de una lengua o variedad lingüística, parecidos en cuanto a sus características y que comparten criterios de selección.

• Se utilizan sobre todo para comparar variedades de la lengua en estudios contrastivos.

• El ejemplo más destacado es el International Corpus of English (ICE) (http://ice-corpora.net/ice/)

• - un corpus en el que desde 1990 se están recopilando

materiales escritos y orales posteriores a 1989 pertenecientes a diferentes variedades del inglés a lo largo del mundo.

27

Corpus paralelos (“bi-texts”): •Recogen textos en más de una lengua (bilingües o multilingües) pero, a diferencia de los anteriores, se trata del mismo texto y sus traducciones o equivalentes en una o más lenguas.

•El más sencillo consta del original y su traducción. Son especialmente útiles para los estudios de traducción, para el desarrollo de sistemas de traducción automática y en entornos bilingües o multilingües, como la ONU, la OTAN, la UE o el parlamento de Canadá.

29

Corpus paralelo • un corpus que consiste de textos

originales en una lengua con su traducción en otra: corpus paralelo.

• Un corpus con textos en dos o más lenguas seleccionados según los mismos criterios lo llamamos un corpus bilingüe o multilingüe.

(Baker 1995: 230; McEnery 1996: 58)

30

Ejemplos de corpus paralelo Hansard Corpus

• Contiene una colección de actas del parlamento canadiense tanto en inglés como en la francés.

• El corpus paralelo se usa para la construcción automática de léxicos y para la investigación sobre la traducción.

• Para poder manejar estos corpus es necesario que las frases y las palabras que son traducciones mutuas sean alineadas, es decir puestas unas al lado de otras. 32

Se requiere pagar suscripción

corpus paralelo

los programas de concordancias bilingües

Permiten:

• La búsqueda de una sola palabra o segmentos infraoracionales.

• Examinar párrafos completos o la traducción del texto completo en lugar de pares de oraciones independientes

• Desventajas: no presenta una variedad natural de la lengua y que puede representar la idiosincrasia de un sólo traductor

33

corpus paralelo

los programas de concordancias bilingües

Permiten:

• La búsqueda de una sola palabra o segmentos infraoracionales.

• Examinar párrafos completos o la traducción del texto completo en lugar de pares de oraciones independientes

• Desventajas: no presenta una variedad natural de la lengua y que puede representar la idiosincrasia de un sólo traductor

34

Ejemplos de corpus paralelo

• CRATER (Corpus Resources and Terminology Extraction) se utiliza un corpus en tres lenguas: inglés, francés y español, del terreno de las telecomunicaciones.

• Se llama el ITU (International Telecommunications Union) corpus.

• el corpus paralelo inglés - noruego (universidad de Oslo) (Johansson & Ebeling 1996);

• el corpus paralelo inglés - sueco (universidad de Lund) (M. Johansson 1996);

• el Chemnitz corpus paralelo/de traducción inglés - alemán (Schmied & Schäffler 1996);

• el corpus paralelo castellano - euskara (Abaitua, Casilla & Martínez 1997);

• el GILLBT Corpus de lenguas africanas;

• la ATR Dialogue Database, japonés - inglés;

• la Leiden-Jerusalem Armenian Database, armenio, griego, árabe y sirio (Baker 1995:232).

• el Corpus Lingüístico da Universidade de Vigo (CLUVI) : http://sli.uvigo.es/CLUVI/.

35

Corpus alineados: • Son corpus paralelos en los que, para facilitar su

explotación, los textos están dispuestos unos al lado de otros por párrafos o frases, de tal forma que sea más fácil extraer las equivalencias de traducción: aquellos elementos que son traducciones mutuas.

• Aunque no siempre es un proceso simple, el alineamiento de oraciones y palabras se puede conseguir automática o semiautomáticamente con un alto grado de exactitud. Se utilizan, sobre todo, como entrenamiento para sistemas de traducción automática basados en estadísticas o en la docencia sobre traducción.

• El CLUVI también ilustra perfectamente este tipo de corpus.

36

3. Según la cantidad, la proporción y la distribución de los tipos de textos

• 1. Corpus grandes: no tienen un límite de palabras o este es muy elevado en comparación con otros tipos de corpus; no suelen atender a cuestiones de equilibrio o de representatividad. Cada vez es mayor la tendencia al aumento de volumen gracias a los medios y facilidades técnicas disponibles; no obstante, en la actualidad existen corpus de gran tamaño diseñados con criterios que garantizan la representatividad de los datos.

• 2. Corpus equilibrados: recogen la misma proporción de diferentes tipos de textos.

• 3. Corpus piramidales: contienen textos distribuidos en estratos o niveles, de tal forma que un nivel consta de pocas variedades temáticas pero con muchos textos para cada una; un segundo nivel, de textos más variados temáticamente, pero con menos cantidad de cada uno; etc.

• 4. Corpus léxicos (“sample corpus”): recogen fragmentos de textos muy pequeños y de longitud constante en cada documento. Era lo habitual en los primeros corpus, debido a las limitaciones de tamaño que los medios técnicos de la época imponían. Hoy en día han vuelto a cobrar importancia debido a lo cuidado de su diseño.

37

4. Según los límites establecidos

• 1. Cerrados: constan de un número finito de palabras, que se

establece de forma previa a la recopilación del corpus. Una vez alcanzado ese número, el corpus se da por finalizado, sin añadir más material posteriormente. Útiles cuando interesa estudiar fenómenos estáticos o estados de lengua.

• 2. Abiertos o monitor: son corpus dinámicos, que se

mantienen en constante crecimiento, normalmente mediante la introducción periódica de nuevas cantidades de textos según unas proporciones previamente definidas. Cuando la capacidad de almacenamiento no lo permitía, se iban retirando los textos más antiguos a medida que se introducían los nuevos. Son un material excelente para los estudios diacrónicos, para observar tendencias de uso, cambios de significado, frecuencias de distribución, etc.

38

5. Especificidad de los textos

1. General o de referencia:pretenden reflejar la lengua

o variedad lingüística de la forma más equilibrada posible; cuantos más tipos de textos, modalidades (textos orales, textos escritos), géneros y materias, mejor. Tienen que ser amplios como para reflejar todas las variedades relevantes de una lengua y su vocabulario, de forma que se puedan tomar como base para la elaboración de gramáticas, diccionarios, tesauros, etc. El CREA

2. Especializado: recogen textos que puedan aportar datos para

la descripción de un tipo particular de lengua(“sublenguaje”). Contienen alta cantidad de términos y dirigido a un público especializado.

3. Genérico: recogen textos pertenecientes a un único género, ya que

el objetivo es caracterizar ese género frente a otros. solo poesía.

4. Canónico: Formados por todos los textos que configuran la obra

completa de un autor. 40

Corpus de la lengua general con fines generales

• Su objetivo principal es constituir una fuente de información textual del español para fines diversos.:

• “Corpus de Referencia del Español Actual” (CREA). Desarrollado por el Instituto de Lexicografía de la RAE, contiene textos literarios, periodísticos, científicos y técnicos, así transcripciones de grabaciones de la lengua oral y de medios de comunicación correspondientes a los últimos veinticinco años (1975-1999). 41

Corpus generales • Corpus Diacrónico del Español (CORDE).

Desarrollado también por el Instituto de Lexicografía de la RAE, recogerá textos de la lengua española desde sus orígenes hasta 1975.

• Archivo de textos hispánicos de la Universidad de Santiago (ARTHUS). Incluirá textos literarios, periodísticos y transcripciones de la lengua oral de diferentes períodos de la historia de la lengua española.

43

Corpus generales

• CUMBRE es un conjunto de datos lingüísticos representativos del uso del español contemporáneo recogidos por la editorial SGEL SA y supervisados por A. Sánchez (Universidad de Murcia).

• Corpus de español de la República de Argentina y Corpus Chileno de Referencia abarcan una gran variedad de tipos de textos del español escrito en Argentina y Chile, respectivamente.

44

6. Según el periodo temporal que abarcan los textos 1. Periódico o cronológico: recogen textos de unos años

determinados o de unas épocas concretas con el objeto de estudiar la lengua producida durante ese período.

2. Diacrónico o histórico: incluyen textos de diferentes etapas temporales sucesivas con el fin de poder observar evoluciones de la lengua en un período largo, lo que los diferencia de los corpus monitor, que no abarcan períodos temporales tan amplios.

3. Corpus sincrónicos: su finalidad es permitir el estudio de una o más variedades lingüísticas en el momento presente, sin prestar atención a su evolución excepto en lo que se refiere a los cambios rápidos que ocurren en la actualidad. Ejemplo: COCA 45

Corpus históricos

• Mientras los corpus textuales modernos pueden recurrir al material ya en forma digital, los textos para corpus históricos tienen que ser digitalizados.

• Deben tomarse en cuenta algunos problemas especiales: ¿Se emplea el manuscrito o una edición? ¿Cómo se manejan las correcciones, las glosas, etc.? Otro problema es la codificación de las letras y otros signos de escritura porque algunos caracteres no existen.

• Archivo franciscano: colecciones como manuscritos de los siglos XVI al XIX sobre la Orden de San Francisco en México(UNAM)

46

Ejemplos • Corpus especializado: Corpus Técnico do Galego (CTG) del

Seminario de Lingüística Informática de la Universidad de Vigo-textos jurídico-administrativos, de informática y telecomunicaciones, de ecología y ciencias ambientales, de economía, de sociología y de

• http://sli.uvigo.es/CTG/

• Corpus genérico: el York-Helsinki Parsed Corpus of Old English Poetry contiene solo poesía.

• http://www-users.york.ac.uk/~lang18/pcorpus.html

• Corpus periódico o cronológico: los corpus Brown o LOB, que recogen textos publicados exclusivamente en 1961 en Estados Unidos y el Reino Unido respectivamente

47

corpus comparable • Consisten en una selección de textos en más de una lengua o variedad lingüística parecidos en cuanto a sus características y que comparten criterios de selección.

• Se utilizan sobre todo para comparar variedades de la lengua en estudios contrastivos.

• Esta colección de textos se ha de recopilar de acuerdo a unos criterios que aseguren su comparabilidad, por lo que deben incluir un mismo campo, variedad de lengua, temporalidad y una extensión similar.

49

corpus comparable • Este tipo de corpus se usa para estudios sobre la traducción a fin de determinar características generales de textos traducidos en comparación con textos originales (es decir, no traducidos).

• A comparable corpus is a pair of corpora in two different languages, which come from the same domain.

50

• Corpus dialectales

Los corpus dialectales están disponibles normalmente sólo en forma oral.

Una razón es que los dialectos por lo general no tienen una norma de escritura correcta y que en muchos dialectos no existe en absoluto la tradición de una escritura.

52

Corpus de géneros electrónicos • Los géneros electrónicos: el chat, el foro

de discusión, el correo electrónico o el mensaje SMS

• Han experimentado un enorme desarrollo en los últimos años y, en cierta medida, han sustituido a géneros tradicionales como la carta, el diálogo, la conversación oral o el debate.

53

Composición del corpus

Como el objetivo de un corpus es reflejar por medio de una muestra el comportamiento de una lengua es necesario decidir cómo se debe componer para que sea lo más representativo posible en atención a la investigación lingüística. Por ello el corpus debe cumplir los siguientes parámetros:

54

Tamaño de los corpus generales

58

El CREA

• REAL ACADEMIA ESPAÑOLA: Banco de datos (CREA) [en línea]. Corpus de referencia del español actual. <http://www.rae.es>

59

Concordancia de “chamaco”

66

Concordancia de “chamaco” Núm. 1

Concordancia: las Ligas Mayores con los Bravos de Atlanta. Y el chamaco al que sus compañeros llaman "chato", procedi **

2001 PRENSA Excélsior, 04/09/2001: Tommy al Bat... MÉXICO 05.Deportes (México), 2001

67

Párrafos

68

Párrafo de “chamaco” • Excélsior, 04/09/2001 : Tommy al Bat... PRENSA 13 México 2001

2001 10 505 P Tommy al Bat...

• El Nuevo Fenómeno de los Tigres: "Chato" Vázquez

• TOMAS MORALES F.

• Parece increíble, pero sucedió el domingo en el "Foro Sol", ante otra muy buena entrada de unos 15,000 espectadores. El novato Jorge Alberto Vázquez, con solamente 19 años y nativo de Culiacán, fue colocado por el manager Dan Firova en lugar de Julio Franco, el formidable campeón bateador del Tigres, que dejó al equipo para regresar a las Ligas Mayores con los Bravos de Atlanta. Y el chamaco al que sus compañeros llaman "chato", procedió a ser el gran héroe ofensivo dominical al batear de 4 - 4, con un cuadrangular, un doble y dos sencillos para que los felinos ganaran 11 - 6 y empataran la final contra Diablos Rojos.

69

Agrupaciones (clusters)

70

Documentos

71

Nómina de autores y obras

72

CHEM http://www.iling.unam.mx/chem/

73

El CHEM

•Está constituido por: •una amplia y creciente colección de documentos diacrónicos que representan diversos géneros textuales; •las herramientas para explorarla y analizarla. 74

Consulta de concordancia

75

“Chocolate” 1750-1850

76

“Chocolate” 1750-1850

77

COCA

78

Corpus size

• The Corpus of Contemporary American English (450+ million words) is 4-5 times as large as the British National Corpus (100 million words).

• As a result, it often provides data for lower-frequency constructions that are not available from the BNC. In terms of concrete examples, let us focus here on just two types of phenomena -- collocates and syntax

79

http://corpus.byu.edu/coca/

80

http://corpus.byu.edu/bnc/

81

82

“Dog”

83

http://www.corpusdelespanol.org/

84

CODEA http://demos.bitext.com/codea/

85

Acceso a los documentos

86

Resultados de la búsqueda

87

Documento

88

UN CORPUS DE ESPECIALIDAD En un área determinada permite analizar y observar cuestiones relacionadas con el conocimiento de los expertos en esa especialidad; por ejemplo, podemos mencionar cómo se expresa el especialista y cómo escribe.

89

Corpus de especialidad

• pueden examinar rasgos textuales más refinados como el marcaje tipográfico, que resalta los elementos temáticos más importantes, las variedades estilísticas, etc.

• al ser documentos lingüísticos los corpus sirven para analizar la estructura léxica, morfológica y gramatical de la lengua representada.

90

CORPUS DE ESPECIALIDAD • CRATER. Proyecto europeo consistente en textos de la IUT (International Telecommunications Union) en español, francés e inglés. Este corpus está disponible en la U.A.de Madrid.

• Gramática Española-Corpus de contraste (Universidad de Salamanca)

• Valencias verbales del español (Universidad de Murcia).

• AGLE (Archivo Gramatical de la Lengua Española), que contiene más de 100.000 citas recogidas por el gramático español Salvador Fernández Ramírez y editado por el Instituto Cervantes.

92

http://saussure.ii.unam.mx/cli/

93

Corpus Lingüístico en Ingeniería, en México • Del Grupo de Ingeniería Lingüística (GIL) del Instituto de

Ingeniería, UNAM.

Los objetivos generales del proyecto son:

1. Elaborar, desarrollar y mantener un corpus lingüístico que contenga textos selectos en el área de ingeniería, los cuales deben estar debidamente codificados y organizados.

2. Diseñar herramientas de análisis adecuadas para manejar el corpus y explotar su utilidad en el desarrollo de diversas investigaciones en las áreas de ingeniería, ingeniería lingüística y lingüística.

94

Se busca tener

a) una colección balanceada de textos representativos de la ingeniería en lengua española; y

b) las herramientas computacionales necesarias para consultar y analizar dicha colección.

95

CLI

Búsqueda

96

Es un corpus multipropósito • Podrá satisfacer distintas necesidades

dependiendo de la finalidad de su consulta:

• contribuirá a construir el consenso necesario para el establecimiento de terminologías de las diversas áreas temáticas de la ingeniería;

• ayudará en la redacción de este tipo de documentos, libros o artículos proporcionando modelos de escritura o bien, ilustrando a través de un panorama estilístico diversos aspectos de la exposición de temas.

97

CLI

Aplicaciones del CLI, Méx.

• Los ingenieros lingüistas podrán elaborar herramientas vinculadas con el procesamiento del lenguaje natural; y

• Los lingüistas tendrán una herramienta de apoyo para investigaciones lexicográficas, terminográficas, gramaticales, pragmáticas y semánticas. 98

Aplicaciones 1. Elaboración semiautomática de

diccionarios especializados.

2. Identificación de paradigmas semánticos

3. Extracción terminológica a partir de documentos actuales y confiables en el área de ingeniería.

4. Elaboración de herramientas para facilitar la redacción de artículos e informes técnicos al ingeniero (generación automática de documentos).

99

CLI

CLI • Se mantendrán los formatos tipográficos y de estilo, así

como la estructura textual que los caracterice.

• Se marcarán los documentos con etiquetas estructurales XML (Extensible Markup Language).

• Conservar la tipografía marcada en el documento original, para mostrarla en el momento de su consulta y para utilizarla en búsquedas automáticas de patrones.

• Ya que, se ha observado que en la situación pragmática de introducir nuevos términos y definiciones en los textos de especialidad, los autores hacen uso de patrones recurrentes en los que se involucran marcas tipográficas (negritas, cursivas, subrayado, espaciado, etc.) con el fin de resaltar el nuevo término o la definición.

100

Por ejemplo,

• Según G. Malagón (1996) un hospital se define como: “una parte integrante de la organización médica, cuya función es la de proporcionar a la población…

• Según la etiquetas XML:

• <doc><p> Según <name> G. Malagón</name> (<num> 1996</num>) un hospital se define como: “<b> una parte integrante de la organización médica, cuya función es la de proporcionar a la población… </b></p></doc>

101

Explicación de las etiquetas • <doc>…</doc> que serán las “etiquetas madre” o “raíz”

de la cuales dependerán todas las existentes dentro de los documentos.

• <p>…</p> nos indican que todo lo que esté dentro de ellas es un párrafo;

• <name>…</name> contienen dentro de ellas algún nombre propio;

• <num>…</num> nos indican la existencia de un número;

• <b>…</b> nos dicen que todo el texto ahí presente se encuentra en negritas (bold).

102

El corpus del IULA Pompeu Fabra

• Textos escritos en cinco diferentes lenguas: catalán, español, inglés, francés y alemán.

• Pertenecen a especialidades: economía, derecho, medicina, informática y ciencias del lenguaje.

• Se intenta inferir las líneas que rigen el comportamiento de cada lengua en cada área.

• Las investigaciones previstas: detección de neologismos y términos, estudios de variación lingüística, análisis sintáctico parcial, construcción de diccionarios electrónicos y elaboración de tesaurus.

103 http://www.iula.upf.edu/corpus/corpuses.htm

Corpus técnico de IULA

104 http://bwananet.iula.upf.edu/

1er paso

105

2do. paso

106

3er. paso

107

4to. paso

108

Banco de Términos

• http://www.iling.unam.mx/SABTEF/admin/Administracion.php 109

Es una recopilación de términos detalladamente explicados, pues además de la definición del término, también proporciona ejemplos, contextos definitorios, así como el área y la sub-área temática a la que pertenecen.

Sistema de Administración de Bancos Terminológicos Flexibles

110

14 Bancos terminológicos

Búsqueda

111

http://www.iling.unam.mx/SABTEF/web/Diccionario.php

Palabra clave: corpus

112

Corpus codificado

113

http://www.corpus.unam.mx/

114

http://saussure.ii.unam.mx/cli/

http://saussure.ii.unam.mx:8080/csmx/

http://saussure.ii.unam.mx/chem/

http://saussure.ii.unam.mx:8080/corcode/

http://www.corpus.unam.mx:8080/cemc/

http://www.corpus.unam.mx/rst/

http://www.iifl.unam.mx/coreecom/

http://www.bdpn.unam.mx/

Practica 1: Diseño y características del corpus • Consulta 4 corpus • En un PPP realiza la descripción de cada uno (con

imágenes y anotaciones) • 1. Características del corpus: • 1.1 Objetivo general • 1.2 Criterios de selección del material • 1.3 Dimensión • 1.4 Tipos de resultados • 2. Descripción de una búsqueda • 2.1 Realiza una búsqueda y describe el paso a paso

de la misma, así como toda la información que el corpus proporciona.

115

Práctica 2 1) Busca un mexicanismo, en DRAE: mexicanismo

1. m. Vocablo, giro o modo de hablar propio de los mexicanos

2) Haz una relación de las diferentes definiciones dadas por los diccionarios: DRAE, DEM, Dicc. de María Moliner; el Breve diccionario de mexicanismos, Diccionario de mexicanismos de AML, Diccionario de americanismos (todos en línea).

EJEMPLIFICAR

3) Busca la palabra en diferentes corpus: CREA, Corpus del español de Mark Davies, CEMC y el CORDE, etc.

116

Práctica 2

4) Analiza cuáles resultados arrojados por los corpus corresponden a las definiciones dadas.

5) Por cada definición, aporta 3 ejemplos oracionales, los cuales los obtendrás de los corpus.

6) Trata de identificar qué otras definiciones harían falta agregar a los diccionarios y da ejemplos que ubicaste en las líneas de concordancia de los corpus.

7) Busca una traducción para cada definición

8) Ejemplifica las traducciones utilizando Corpus en inglés

9) Entregar en WORD y por correo electrónico.

117

EJEMPLO

• Diccionario de mexicanismos Academia Mexicana de la Lengua

118 http://www.academia.org.mx/DiccionarioDeMexicanismos

El DM de la AML solo tiene en línea hasta “i”: iztle

Diccionario escolar de AML • Agachar v.tr. 1. Inclinar o bajar alguna parte del cuerpo, en

especial la cabeza: Al pasar por la puerta tuvo que agachar la cabeza. || agacharse v.prnl. 2. Encogerse, doblando el cuerpo hacia la tierra: Se agachó para recoger lo que se había caído. Se conjuga como cantar.

119

DRAE agachar. (Quizá del lat. coactāre, frec. de cogĕre 'reunir', 'apretar'). 1. tr. Inclinar o bajar alguna parte del cuerpo, especialmente la cabeza o el tronco. U. t. c. intr. 2. prnl. Encogerse, doblando mucho el cuerpo hacia la tierra. 3. prnl. Ceder, someterse. 4. prnl. Arg. y Ur. Prepararse o disponerse a hacer algo. 5. prnl. Col. Apropiarse de algo indebidamente. Agacharse CON el reloj. 6. prnl. Cuba. Dicho de un jugador de dominó: Quedarse con las fichas que podía poner en juego. 7. prnl. coloq. p. us. Retirarse, apartarse durante algún tiempo del trato y vista de la gente. 8. prnl. coloq. p. us. Dejar pasar algún contratiempo, persecución o acusación sin defenderse ni excusarse, para sacar después mejor partido.

Diccionario de Americanismos

agachar(se).

I. 1. tr. Mx. En los juegos de mesa, principalmente en el dominó, fingir una desventaja para luego aprovecharse.

2. prnl. Cu. En el dominó, no matar la ficha del contrario, como parte de una estrategia de juego.

II. 1. intr. prnl. ES, Cu. Someterse una persona a la voluntad de otra por miedo o por servilismo. ◆ aplastar; aplatar.

a. ǁ ~ el moño. loc. verb. Ch; Pe, p.u. Ceder alguien en determinadas circunstancias o ante determinadas actitudes.

120

http://lema.rae.es/damer/

DEM • Agachar v (Se conjuga como amar)

I tr 1 Inclinar hacia abajo, particularmente el cuerpo o la cabeza: “Estoy triste, dijo, agachando la cabeza” 2 Agachar la cabecita (Popular) Morir II Agacharse prnl 1 Inclinarse hacia el suelo, ya sea flexionando las piernas o doblando la cintura: “Me agaché casi a besarle los pies” 2 (Coloq) Consentir o aceptar, con indignidad, algo vergonzoso o indebido: “Los líderes se agacharon ante los malos manejos del diputado”, “Ese hombre no se agacha ante nadie” 3 (Popular) En los juegos de mesa, principalmente en el dominó, fingir una desventaja para luego aprovecharse

121

http://dem.colmex.mx/

Ejemplificación con corpus • Diccionario de mexicanismos AML :

• Agachar: acobardar

122

CEMC: 1. TRES, DIZQUE MI SOBRINO Y MI COMPADRE,

TUVIERON GANAS DE AGACHARSE Y SE FUERON PAL MONTE. NO LOS VOLVÍ A VER

CEMC: QUE ÉL CARGABA LO HACIA OIR AQUELLAS COSAS. VOLVIÓ A AGACHARSE A TOMAR AGUA Y OYÓ LA VOZ OTRA VEZ. Y

DEM; 1 Inclinar hacia abajo, particularmente el cuerpo o la cabeza Agacharse: Inclinarse hacia el suelo, ya sea flexionando las piernas o doblando la cintura

Definiciones ejemplificadas con corpus

Dicc Definiciones Corpus Ejemplos (3)

DEM DRAE DAML

Inclinar hacia abajo, particularmente el cuerpo o la cabeza: “Estoy triste, dijo, agachando la cabeza”

DEM DM-AML

Locución Agachar la cabecita (Popular) Morir

DEM (Coloq) Consentir o aceptar, con indignidad, algo vergonzoso o indebido:

DEM DAMER DM-AML

(Popular) En los juegos de mesa, principalmente en el dominó, fingir una desventaja para luego aprovecharse 123

Definiciones y sus traducciones

Definiciones traducción Corpus Ejemplos (3)

Inclinar hacia abajo, particularmente el cuerpo o la cabeza: “Estoy triste, dijo, agachando la cabeza”

To hang To bend To duck

COCA - … Don´t hang your head” - … than bending the head when

passing through the door… - … ducks its head and closes its eyes

Locución Agachar la cabecita (Popular) Morir

(Coloq) Consentir o aceptar, con indignidad, algo vergonzoso o indebido:

To bow down

COCA … you have to bow down and obey

(Popular) En los juegos de mesa, principalmente en el dominó, fingir una desventaja para luego aprovecharse

To bluff There are two main kind of bluffing in Poker

124

Academia Mexicana de la Lengua

125

• http://www.academia.org.mx/Cordiam

126

127

Corpus en internet

128

CÓRPORA • [CEDOPU] Corpus español de dominio público de 120 millones de

palabra: http://www.lsi.upc.edu/~nlp/wikicorpus/ • [CdA] Corpus del habla de Almería: http://www.grupoilse.org/ • [CdE] Davies, Mark. (2002-) Corpus del español (100 millones de

palabras, siglo XIII - siglo XX): http://www.corpusdelespanol.org • [CHIEDE] Corpus de Habla Infantil Espontánea del Español

http://www.lllf.uam.es/ESP/Chiede.html • [CEDP] Corpus español de dominio público de 120 millones de

palabras: • http://www.lsi.upc.edu/~nlp/wikicorpus/ • http://www.lsi.upc.edu/%7Enlp/wikicorpus/ • [CORDE] Corpus Diacrónico del Español:

http://corpus.rae.es/cordenet.html • [CORLEC] Corpus Oral de Referencia de la Lengua Española

Contemporánea: http://www.lllf.uam.es/ESP/Corlec.html • [CDE BYU]Corpus del Español de Brigham Young University:

http://www.corpusdelespanol.org/x.asp • [CORLEC] Corpus Oral de Referencia de la Lengua Española

Contemporánea: http://www.lllf.uam.es/ESP/Corlec.html

129

CÓRPORA • Corpus Lingüístico de Referencia de la Lengua Española en Argentina • Corpus lingüístico de referencia de la lengua española en Chile:

http://www.lllf.uam.es/ESP/Chile.html • [COSCACH] Corpus Sociolingüístico del Castellano Oral de Chile.

http://ssadowsky.hostei.com/coscach-es.html • [CLiReLEA] Corpus Lingüístico de Referencia de la Lengua Española en

Argentina: http://www.lllf.uam.es/ESP/Argentina.html • [CLiReLeCHI] Corpus lingüístico de referencia de la lengua española en

Chile: http://www.lllf.uam.es/ESP/Chile.html • [CREA] Corpus de Referencia del Español Actual:

http://corpus.rae.es/creanet.html • [ICE] International Corpus of English: http://www.ucl.ac.uk/english-

usage/ice/ (se necesita autorización para usarlo) • [STB] UAM Spanish Treebank: http://www.lllf.uam.es/ESP/Treebank.html#

examples • [SOL] Spanish Online. Concordancias españolas en la web: • http://spraakbanken.gu.se/konk/rom2/ • Corpus oral del castellano, Servidor TactWeb • El Grial: banco de datos lingüísticos elaborados por la Real Academia,

desarrollado por la Escuela Lingüística de Valparaíso. http://www.elv.cl/prontus_linguistica/site/edic/base/port/grial.html

130

Inglés • [ANC] American National Corpus. http://www.americannationalcorpus.org/ • [BNC] British National Corpus: http://www.natcorp.ox.ac.uk/ • [BOE] Collins Wordbank of English.

http://www.collinslanguage.com/wordbanks/subscribe/mailed.aspx • [COCA] Corpus of Contemporary American English: http://corpus.byu.edu/coca/ • [CCE] Corpus Concordance English:

http://www.lextutor.ca/concordancers/concord_e.html • [Cocor]Coconut Corpus: http://www.pitt.edu/~coconut/coconut-corpus.html. • [CEN] Corpus I-EN: http://corpus.leeds.ac.uk/internet.html • [COHA] Corpus of Historical American English: http://corpus.byu.edu/coha/ • [C-ORAL-ROM] C-ORAL-ROM: http://lablita.dit.unifi.it/coralrom/ • [CWbE] Collins Wordbank of English. • http://www.collinslanguage.com/wordbanks/subscribe/mailed.aspx • [OEC] Oxford English Corpus: http://www.oxforddictionaries.com/page/oec • [MICASE] Michigan Corpus of Academic Spoken English: • http://quod.lib.umich.edu/cgi/c/corpus/corpus?page=home;c=micase;cc=micase • [TIME] Time Magazine Corpus: http://corpus.byu.edu/time/ • WebCorp: http://www.webcorp.org.uk.

131

Otras lenguas • [LACITO] Langage et civilisations à traditions oral:

http://lacito.vjf.cnrs.fr

• [LIRICS] Linguistic Infrastructure for Interoperable Resources and Systems: http://lirics.loria.fr/

• [CA] Corpus del Alemán: http://www.ids-mannheim.de/

• [CA-I] Corpus de alemán/inglés: http://quickie.ikw.uni-osnabrueck.de/CQPdemo/

• [CORGA] Corpus de Referencia do Galego Actual: http://corpus.cirp.es/corga/

• [CUCweb] Corpus de uso del catalán en la web: http://ramsesii.upf.es/cgi-bin/cucweb/search-form.pl

• [CP] Corpus do Portugués: http://www.corpusdoportugues.org/

132