Hiztegiak, Internet eta euskararen desafioak

Post on 06-Aug-2015

42 views 2 download

Transcript of Hiztegiak, Internet eta euskararen desafioak

Hiztegiak, Internet eta euskararen desafioak

Antton Gurrutxaga Hernaiz, Josu Aztiria UrtaranElhuyar Hizkuntza Zerbitzuak

www.elhuyar.org/hizkuntza-zerbitzuak

Praktika egokiak gutxitutako hizkuntzen erabilera IKTetan sustatzeko biltzarra

Leizaola FundazioaBilbo, 2010-11-19

Elhuyarko Hizkuntza Zerbitzuak saileko

lantaldea

Itzulpenak / Hiztegiak / I+G

Abiatzeko

• Elhuyar hiztegiak Interneten• Interneten eragina hiztegigintzan• Desafio batzuk

es euItzulpen-memoriak

ItzulTerm

DB termTerminologoak

Hiztegigintza-prozesuan berrikuntzak

Interneten eragina hiztegigintzan

• Testu-baliabideetan corpusgintza: web as/for corpus

• Hiztegiak: testuinguru berria– Hiztegi kontzeptuaren ezaugarrietan– Erabiltzeko, argitaratzeko eta egiteko

ereduetan– Negozio-ereduan

Internet eta corpusak

• Ikuspegi linguistikoaInteresgarria da webaren alderdi

linguistiko bereziak aztertzea• Ikuspegi "praktikoa" Interesgarria da webetik

corpusak automatikoki eratzeko tresnak garatzea

• Internet: errealitate "linguistikoa"• Interneten BAKARRIK argitaratzen diren

testuak gero eta ugariagoak dira, eta ezaugarri bereziak dituzte

• Corpusak eratzea prozesu geldoa eta garestia da

• Interneten testu-kantitate handia dago, digitalizatuta; Interneten ERE argitaratzen diren testuak gero eta ugariagoak dira

Web-corpusak

• Web as corpus: Internet corpus gisa kontsultatzea

• Web for corpus: Interneteko testuetatik corpusak automatikoki eratzea (offline)

Web-corpusak – Elhuyar I+G

• Web as corpus:– CorpEus (http://www.corpeus.org)

• Web for corpus:– Elebakarrak: AutoCorpEx– Konparagarriak: Co3 (Comparable

Corpora Collector)– Pareleloak: PaCo2 (Parallel Corpora

Collector)

Interneten eragina

• Testu-baliabideetan corpusgintza: web as/for corpus

• Hiztegiak: testuinguru berria– Hiztegi kontzeptuaren ezaugarrietan– Erabiltzeko, argitaratzeko eta egiteko

ereduetan– Negozio-ereduan

Testuinguru berria

• Hiztegi "elektronikoak" (vs "hiztegi inprimatuen bertsio digitalak")– Edukiera eta eduki-motak– Bilatze- eta nabigatze-aukerak

• Interaktibitatea– Feedback-a, parte-hartzea– Erabiltzailearen beharrak: pertsonalizazioa– Prozesu kolektiboa (Wikipedia, Wiktionary, Logos,

TermWiki...)• Automatizazioa? LNP...• Doako kontsulta / eduki librea

– Negozio-eredua!!!!

Hiztegigintzaren paradigma-aldaketa (Anderson & Nielsen, 2009)

M. Rundellen hiru "agertokiak"

• Enhanced dictionary– Standard version free (supported by advertising),

enhanced version paid-for

• Embedded dictionary– a “service” – available to users within another

environment

• Not a dictionary at all– Why do dictionaries exist?– They fulfil certain communicative needs – but what

if those needs could be met by other means?

Rundell, M. 2009. A future for dictionary publishing? Lexicom 2009

Euskararen desafio batzuk

• Corpus-hiztegigintza• Hiztegi (benetan) elektronikoak• Nork eta nola?

Corpus-hiztegigintza

• Corpusak!!!!!– Erreferentzia-corpusa(k?),

espezializatuak... // web-corpusak!– Ustiatzeko aukera

• Teknologia: sakonago lantzeko arloak– Corpusak ustiatzeko tresna aurreratuak

sortu

• Ikuspegia – Deskriptiboa Pr[e|o]skriptiboa

([arau|gomendio]-emailea)

?

Ongi aprobetxatzen ari al gara?

• Papereko hiztegien web-bertsioak edo Interneterako hiztegiak?– Edukiak: papera eta Internetekoak

berdinak dira– Functionalitateak: hainbat hobekuntza

bilaketa-sisteman eta aukeretan– Eguneratzea: Paperekoaren menpe

hiztegi estatikoak eguneraketa-maiztasun txikia

Hiztegi (benetan) elektronikoak

• Diseinuak berritu (ez grafikoa bakarrik!), erabilgarritasuna.

• Eduki-motak ugaritu eta integratu (Copus-agerraldiak…)

• Funtzionalitatea areago landu (Lematizazioa, hizkuntza-teknologiak..)

• Pertsonalizaziorantz

"New electronic media provide not only new and better lexicographic solutions but also new options" (Bergenholtz & Tarp, 2005)

Nork eta nola?

• Nork?– Profesionalak / Erabiltzaileak

• Zein diru-baliabidez?– Salmenta / harpidetza / publizitatea– Diru publikoa– Dohaintzak– Wiki eredua: banako editoreen doako

lana– ... Irudimena

Ikasteko grinez, ekiteko prest

Eskerrik asko!

Solaserako unea...

Internet, hiztegiak eta euskararen desafioak

Antton Gurrutxaga Hernaiz, Josu Aztiria Urtaran

Elhuyar Hizkuntza Zerbitzuakwww.elhuyar.org/hizkuntza-zerbitzuak

Praktika egokiak gutxitutako hizkuntzen erabilera IKTetan sustatzeko biltzarra

Leizaola FundazioaBilbo, 2010-11-19

Bibliografia I• Aldezabal, I., Arriola, JM., Diaz de Ilarraza, A. & Sarasola, K.

2005. Hizkuntzalaritza Konputazionala. Bilbo: UEU Kilgarriff, A., 2000. "Business models for Dictionaries and NLP" In International Journal of Lexicography 13-2.

• Andersen, B. & Nielsen, S. 2008. "Ten Key Issues in Lexicography for the Future." In Lexicography at a Crossroads – Dictionaries and Encyclopedias Today, Lexicographycal Tools Tomorrow

• Atkins, S. & Rundell, M. 2008. The Oxford Guide to Practical Lexicography. Oxford Linguistics

• Bergenholtz, H. & S. Tarp. 2002. "Die moderne lexikographische Funktionslehre. Diskussionsbeitrag zu neuen und alten Paradigmen, die Wörterbücher als Gebrauchsgegenstände verstehen." Lexicographica. International Annual for Lexicography 18, 253-263.

• Grefenstette, G. 1998. "The Future of Linguistics and Lexicographers: Will there be Lexicographers in the year 3000?" In Euralex’98 Proceedings

• Hanks, P. 2000. "Do word meanings exist?" In Computers and the Humanities. 34-1-2, Springer.

• Kilgarriff, A. 1997. "I don't believe in word senses" In Computers and the Humanities. 31-2, Springer.

Bibliografia II• Kilgarriff, A., Rychlý, P., Smrz, P. & and Tugwell, D. 2004. "The

Sketch Engine." In Proceedings of Euralex04. Lorient, France (http://www.sketchengine.co.uk/)

• Leturia, I., San Vicente, I. & Saralegi., X. 2009. "Search engine based approaches for collecting domain-specific Basque-English comparable corpora from the Internet". In 5th International Web as Corpus Workshop (WAC5). Donostia.

• Pustejovsky, J., Hanks, P. & Rumshisky, A. 2004. "Automated induction of sense in context." In Proceedings of the 20th international Conference on Computational Linguistics. Geneva.

• Rundell, M. 2009. "The road to automated lexicography: first banish the drudgery... then the drudges?" In eLexicography in the 21st century: new challenges, new applications (eLEX2009). Lovaina.

• Villegas, M., Bel, N., Bel, S., Alemany, F. & Martínez, H. (2009). "Lexicography in the grid environment ." In Proceedings of eLexicography in the 21st century: new challenges, new applications (eLEX2009). Lovaina: Cahiers du Cental.