Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de...

26
Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ

Transcript of Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de...

Page 1: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Tratamento estatístico do conhecimento lingüístico

Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ

Page 2: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Questões básicas da ciência lingüística

• Chomsky, 1986:

(i) O que constitui o conhecimento lingüístico?

(ii) Como esse conhecimento é adquirido?

(iii) Como esse conhecimento é usado?

• Rizzi, 1998:

(iv) Como o conhecimento é representado na mente?

(v) Como esse conhecimento é acessado?

Page 3: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Postulação de um conhecimento inato (GU)

• Argumento da pobreza de estímulo

• Input degenerado

• Ausência de evidência negativa (Gold, 1967: linguagens formais não podem ser adquiridas / aprendidas somente com base em evidência positiva.

Page 4: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Abordagem estocástica do conhecimento lingüístico

• O uso lingüístico real é altamente variável, gradiente e rico em fenômenos contínuos;

• Há um conjunto de experimentos que demonstraram que os julgamentos dos falantes apresentam propriedades de contínuo e comportamento gradiente, e que a cognição humana é baseada em processamento probabilístico.

• A faculdade da linguagem apresenta propriedades probabilísticas presentes na representação, no processamento, na mudança, na aquisição e na produção.

Page 5: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Pressupostos Teóricos: Modelos baseados no Uso, Lingüística Probabilística, Fonologia de

Laboratório- “grammar is usage, and usage is grammar” (Bybee,2005): gramática é a organização cognitiva da experiência do falante com a

língua e aspectos dessa experiência têm impacto na representação, aquisição e mudança.

- abandono da doutrina do dualismo: “language as a cognitive system imputed to the individuals is thus to be

explained in terms of general facts of the physical world (...); in terms of specific capabilities of the human species which arose through evolution (...): and in terms of interactions of the organism with its environment (...). Social interaction is subsumed under the same umbrella, as a phenomenon of nature (Pierrehumbert, Beckman & Ladd, 2001)

- Modelagem probabilística da organização do conhecimento lingüístico: ”Knowledge of language can be understood not as a minimal set of categorical rules or constraints, but as a (possible redundant) set of gradient rules, which may be characterized by a statistical distribution” (Bod, Rens & Jannedy, 2003)

- As estruturas emergem do sistema de armazenagem

Page 6: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Gramática probabilística como solução para a ausência de

evidência negativa• Jurafsky, 2003

• Input lingüístico: contém ruído, ambíguo e não segmentado;

• Outras ciências cognitivas utilizam modelos estatísticos para lidar com problemas semelhantes:

– processamento visual humano (Rao et al. 2001; Weiss & Fleet 2001)– categorização (Tenenbaum 2000; Tenenbaum and Griffiths 2001b;

Tenenbaum and Griffiths 2001a)– compreensão humana da causatividade (Rehder 1999; Glymour and Cheng1998).

Proposição de um modelo probabilístico: - Modelo probabilístico é um modelo que serve para resolução de problemas

de tomada de decisão sob incerteza- Evidência positiva: possui uma quantidade suficiente de dados para

modelagem estatística- Generalizações baseadas em inferência estatística tornam-se mais

robustas

Page 7: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Probabilidades onde?

• “Everywhere”. Probabilities permeate linguistic system (Bod, Hay and Jannedy, 2002).

• Integração entre conhecimento lingüístico e uma perspectiva probabilística.

Processamento: “The complex houses married and single students and their families (Jurafsky, 1996)

“differences in sound change a word, ...”

“a bela casa na fazenda”

Page 8: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

• Fonotática:

- Julgamentos fonotáticos e de boa formação apresentam característica de contínuo associados à freqüência de ocorrência de cada difone.

- Representação: efeito de freqüência de type e de token

Page 9: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Fonologia Probabilística

• Distribuição probabilística de qualquer unidade é atualizada através da experiência;

• conhecimento implícito de detalhes quantitativos da pronúncia faz parte da competência, e se desenvolve cedo a partir de uma predisposição inata de observar a fala.

• para modelar esse conhecimento são necessários dois ingredientes: um mapa cognitivo e uma representação análoga da realidade física.

Page 10: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

• memórias extremamente detalhadas da experiência são estocadas. Essas percepções gradualmente preenchem uma região do mapa cognitivo correspondendo a uma categoria ou rótulo. Uma categoria encontrada várias vezes vai ser representada por numerosas memórias que povoam densamente a região correspondente ao rótulo ou categoria. Categorias menos freqüentes terão uma representação mais empobrecida.

• A classificação perceptual de um novo dado é realiza através uma regra de escolha estatística que computa o rótulo mais provável dada a localização e a contagem de distribuições competidoras, da região do novo dado.

• mesmo modelo para a produção: produção se realiza ativando um subregião do espaço de exemplar para uma categoria. As propriedades agregadas dessa subregião servem como metas de produção do planejamento articulatório.

Page 11: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

• As crianças são sensíveis às freqüências de distribuição das formas lingüísticas no input, mas o efeito da freqüência de type e de token pode ser diferenciado em função do estágio aquisitivo (Henry,2002, Pierrehumbert, 2003).

• A variação sociofonética tem um papel na abstração de padrões fonológicos, uma vez que as variantes são formas fonéticas em competição da mesma palavra e podem refletir também competição entre padrões fonológicos.

Page 12: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

CARACTERIZAÇÃO DOS TIPOS SIILÁBICOS C(l)V e C(r)V

C(l)V ~ C(r)V • p, b, k, g, f + (l) tl: limita-se à palavras

emprestadas: atlas, Atlântico, atleta

• Ausência de restrições fonéticas regulares. Condicionamento lexical. (Gomes, 1987, Cristófaro-Silva, 2003).

• [bisiklεtə] ~ [bisikrεtə]

• [‘bluzə] ~ [‘bruzə]

C(r)V ~ CøV

• p, b, t, d, k, g, f, v + (r)

• Ausência favorecida em sílabas finais átonas e em presença de outros grupos na palavra.

• Ex.: [kuatøu]; [pøo’blemə];

• Plosivas e obstruintes surdas (Mollica & Paiva, 1991)

• [‘prכpriu] ~ [‘prכpiu] • [pri’sizə]~[pi’sizə]• [‘otru] ~ [‘otu]

Page 13: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Freqüência dos Tipos de Onsets Complexos Coletado de Michaelis –

www. uol. com. br /michaelis/ por Cristófaro-Silva (2003)

Estrutura C(l)V

• Tipo menos freqüente• CV 279.083• CC 43.584• C(l) 7.971

Estrutura C(r)V

• Tipo mais freqüente• CV 279.083• CC 43.584• C(r) 35.613

Page 14: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

AVALIAÇÃO SOCIAL VARIAÇÃO POR

FALANTE

C(l)V ~ C(r)V: Marcador social

C(r)V ~ CøV: Depende do

item lexicalNão percebido em:

[prכpriu] ~ [prכpiu]

Altamente estigmatizado em:

[progrãmə] ~ [pøgrãmə]

ROTACISMO

01020304050607080

0 10 20 30 40 50 60

falantes

%

DELEÇÃO DO (R)

0

1020

3040

5060

70

0 10 20 30 40 50 60

falantes

%

Page 15: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Estudos sobre a Aquisição do Padrão CCV no Português:

• Lamprecht (1991): CV e V > CVC > CCV

- aquisição pode iniciar pelos encontros com a lateral como com não lateral, fricativa ou plosiva

• Ribas (2004): CV, V >> CVV >> CVC >> CCV

adquirido até aos 4;0 >> aos 5;0

- não há ordem de domínio dos diferentes grupos de onset complexo.

- C(r)V: labial-r > dorsal-r > coronal-r

C(l)V: parece não haver preferência

Page 16: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Distribuição de Ocorrências de CCV nos dados da amostra AQUIVAR

AMOSTRA: 18 crianças entre 2;0 e 5;0

• Total de Dados: 666/1219

• Total de C(r)V: 551/1043

• Total de C(l)V: 115/176

Page 17: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Distribuição das ocorrências de CCV por faixa etária

2;0 2;6 3;0 3;6 4;0 5;0

4/108

4%

11/85

13%

94/210

45%

44/68

65%

297/512

58%

216/236

92%

0%10%20%30%40%50%60%70%80%90%

100%

2;0 2;6 3;0 3;6 4;0 5;0

CCV

Page 18: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Realização do padrão silábico CCV em função da idade e do tipo silábico

2;0 2;6 3;0 3;6 4;0 5;0 TotalC(l)V 2/14

14%

.13

5/25

20%

.18

18/28

64%

.61

6/6

100%

51/68

75%

.72

33/35

94%

.93

176

C(r)V 2/94

2%

.02

6/60

10%

.09

76/182

42%

.38

38/62

61%

.58

246/444

55%

.47

183/201

91%

.90

1043

Page 19: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Distribuição de ocorrências de C(l)V e C(r)V por idade

0%

20%

40%

60%

80%

100%

120%

2;0 2;6 3;0 3;6 4;0 5;0

C(l)V

C(r )V

• X2=2108.337, df=23 p.val < 2.2 e-16

Page 20: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Evolução da sílaba C(r)V em função da tonicidade da sílaba

0%

20%

40%

60%

80%

100%

120%

2;0 2;6 3;0 3;6 4;0 5;0

tônica

pretônica

postônica

atona fin.

Page 21: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Evolução da sílaba C(l)V em função da tonicidade da sílaba

0%

20%

40%

60%

80%

100%

120%

2;0 2;6 3;0 3;6 4;0 5;0

tônica

pretônica

átona fin.

Page 22: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Comparação de C(l)V e C(r)V em sílabas tônicas

0%

20%

40%

60%

80%

100%

120%

2;0 2;6 3;0 3;6 4;0 5;0

C(l)V - t.

C(r)V - t.

• X2=1150.991, df=23 p.val < 2.2 e-16

Page 23: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Realização do padrão silábico CCV em sílaba tônica em função da idade e do tipo silábico

2;0 2;6 3;0 3;6 4;0 5;0 TotalC(l)V 2/10

20%

.13

3/15

20%

.13

13/21

62%

.48

6/6

100%

34/44

77%

.66

24/26

92%

.87

122

C(r)V 1/38

3%

.02

3/30

10%

.06

38/100

38%

.26

15/28

54%

.40

145/222

65%

.52

110/114

96%

.94

532

Page 24: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Discussão

• As diferenças desenvolvimentais observadas para os dois tipos de cluster parecem indicar:

• A abstração é gradual, dependente do tipo estrutural e de contexto fonológico (tonicidade, por exemplo)

• As crianças abstraem o tipo C(l)V antes do C(r)V; uma vez que a variação no input - C(r)V ~ C_V – gera também a possibilidade de representação de itens sem a 2a. consoante no grupo.

Page 25: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

0%10%20%30%40%50%60%70%80%90%

100%

2;0 2;7 3;0 3;3 3;7 4;6

medial

final N

final V

Page 26: Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ.

Conclusões Finais

• Há interação entre os dois processos: variabilidade desenvolvimental e reflexo da variação do input

• Diferenças na atuação de contextos estruturais são consistentes com o observado para as variáveis sociolingüísticas no input