BIOMETRIA DE VOZ COM BASE NA REPLICAC˘AO DO~...

UNIVERSIDADE PRESBITERIANA MACKENZIEPROGRAMA DE POS-GRADUACAO EM ENGENHARIA

ELETRICA E COMPUTACAO

LUIS CARLOS MORENO

BIOMETRIA DE VOZ COM BASE NA REPLICACAO DO

SAO PAULO2018

UNIVERSIDADE PRESBITERIANA MACKENZIEPROGRAMA DE POS-GRADUACAO EM ENGENHARIA

ELETRICA E COMPUTACAO

LUIS CARLOS MORENO

BIOMETRIA DE VOZ COM BASE NA REPLICACAO DO

Dissertacao de Mestrado apresentado aoPrograma de Engenharia Eletrica e Computacaoda Universidade Presbiteriana Mackenziecomo parte dos requisitos para a obtencaodo tıtulo de Mestre em Engenharia Eletrica.

Orientador: Prof. Dr. Paulo Batista Lopes

SAO PAULO2018

DEDICATORIA

Dedico este trabalho a minha adoravel e maravilhosa esposa Maria Cristina Rossini, pelasua paciencia e incentivo em todos os momentos do mestrado, sem ela tudo isso nao teriasido possıvel.

AGRADECIMENTOS

A minha adoravel esposa Cristina e meus filhos, pela paciencia e incentivo durantetodas as etapas na realizacao deste trabalho.

Aos meus pais, principalmente ao meu pai Sr.Jayme, por sua perseveranca, deter-minacao e sabedoria.

Ao meu orientador Dr.Prof.Paulo Batista Lopes, pela confianca, disponibilidade eapoio em todas as etapas do trabalho, nao permitindo que em nenhum momento tirasseo foco do objetivo, fornecendo sempre subsıdios e seus conhecimentos para continuidade.

Ao coordenador do Programa de Pos-Graduacao em Engenharia Eletrica e Com-putacao do Mackenzie(PPGEEC), Dr. Prof. Leandro Augusto da Silva, pela confiancadepositada e liberdade.

A Coordenacao de Aperfeicoamento de Pessoal de Nıvel Superior(CAPES) e a Uni-versidade Presbiteriana Mackenzie, pois sem o apoio financeiro da bolsa de estudo naoteria sido possıvel.

A todos os meus professores, porem em especial ao Dr. Prof. Cristiano Akaminepela sua paciencia e objetividade, e a todos os colegas de mestrado, pelos conhecimentoscompartilhados, fundamentais para a realizacao deste trabalho e formacao academica.

RESUMO

Autenticacao e seguranca em sistemas automatizados tornaram-se muito necessarias emnossos dias e muitas tecnicas foram propostas para esse fim. Uma dessas alternativase a biometria na qual as caracterısticas do corpo humano sao usadas para autenticar ousuario do sistema. O objetivo deste trabalho e apresentar um metodo de identificacao,independente do texto pronunciado pelo locutor, com base na replicacao de caracterısticasdo pitch. O pitch e um importante parametro do sinal de voz humana e e usado em umavariedade de aplicativos, incluindo biometria de voz. O metodo proposto de identificacaodo locutor e baseado em segmentos de gravacao com curta tempo de duracao, tres segun-dos para treinamento e tres segundos para a determinacao do mesmo. A partir dessessegmentos, as caracterısticas de pitch sao extraıdas e usadas no metodo proposto de re-plicacao para identificacao do locutor, obtendo-se reducao nos valores de Equal error rate(EER).

Palavras-chave: autenticacao,biometria,pitch,algoritmo,replicacao do pitch.

ABSTRACT

Authentication and security in automated systems have become very much necessaryin our days and many techniques have been proposed towards this end. One of thesealternatives is biometrics in which human body characteristics are used to authenticate thesystem user. The objective of this work is to present a method of text independent speakeridentification through the replication of pitch characteristics. Pitch is an important speechfeature and is used in a variety of applications, including voice biometrics. The proposedmethod of speaker identification is based on short records segments of speech, namely,three seconds for training and three seconds for the speaker determination. From thesesegments pitch characteristics are extracted and are used in the proposed method ofreplication for identification of the speaker, resulting in a reduction in the Equal errorrate (EER) values.

Keywords: authentication, biometrics, pitch, algorithm, pitch replication.

Sumario

1 INTRODUCAO 14

2 REFERENCIAL TEORICO 17

2.1 Pre-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.1.1 Remocao do ruıdo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.1.2 Enquadramento ou Segmentacao . . . . . . . . . . . . . . . . . . . 18

2.1.3 Janelamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2 Classificacao e analise da fala . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.3 Fisiologia na emissao da voz . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.3.1 Trato vocal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.3.2 Pitch ou Frequencia fundamental . . . . . . . . . . . . . . . . . . . 22

2.3.3 Algoritmos de deteccao de pitch . . . . . . . . . . . . . . . . . . . . 23

2.3.4 Problemas na deteccao do pitch . . . . . . . . . . . . . . . . . . . . 25

2.4 Procedimentos de reconhecimento de um locutor . . . . . . . . . . . . . . . 27

2.4.1 Fase 1: Formacao de design e conjuntos de teste . . . . . . . . . . . 28

2.4.2 Fase 2: Limites e grupos de analise . . . . . . . . . . . . . . . . . . 28

2.4.3 Fase 3: Sistema de reconhecimento . . . . . . . . . . . . . . . . . . 29

2.4.4 Fase 4: Validacao da performance . . . . . . . . . . . . . . . . . . . 29

2.5 Autenticacao biometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.6 Outras caracterısticas para verificacao do locutor . . . . . . . . . . . . . . 31

2.6.1 Intensidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.6.2 Linear coeficientes preditivos (LPC) . . . . . . . . . . . . . . . . . . 32

2.6.3 Cepstral coeficiente(CEPSTRAL) e Mel-frequency cepstral coeffici-ents (MFCC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.6.4 Tempo de gravacao das amostras . . . . . . . . . . . . . . . . . . . 35

2.6.5 Outros parametros de representacao da fala . . . . . . . . . . . . . 35

2.7 Modelagem, aprendizado e classificacao . . . . . . . . . . . . . . . . . . . . 36

2.7.1 Sistemas de verificacao do locutor . . . . . . . . . . . . . . . . . . . 38

3 METODOLOGIA 39

3.1 Metodologia de analise proposta . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2 Descricao das fases do projeto e materiais . . . . . . . . . . . . . . . . . . 41

3.2.1 Analise da gravacao do locutor para obtencao do pitch . . . . . . . 42

3.2.2 Base de gravacao utilizada . . . . . . . . . . . . . . . . . . . . . . . 44

3.3 Avaliacao do Sistema Proposto . . . . . . . . . . . . . . . . . . . . . . . . 48

4 CONCLUSAO 54

5 TRABALHOS PUBLICADOS 56

REFERENCIAS BIBLIOGRAFICAS 61

Lista de Figuras

1 Trato Vocal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2 Sinal Vocal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3 Marcador do Pitch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4 Analise de EER - Equal Error Rate . . . . . . . . . . . . . . . . . . . . . . 31

5 Sinal de Voz e Cepstrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

6 Diagrama de fluxo para obtencao do MFCC . . . . . . . . . . . . . . . . . 35

7 Variacao do EER x Tempo de teste de gravacao . . . . . . . . . . . . . . . 36

8 Diagrama de Classificao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

9 Diagrama de replicacao proposto . . . . . . . . . . . . . . . . . . . . . . . 41

10 Visualizacao da Plataforma PEVIM . . . . . . . . . . . . . . . . . . . . . . 42

11 Diagrama funcional para identificacao do locutor por classificador . . . . . 43

12 Grafico do valor medio do pitch (em Hz) dos tres extratores e sete gravacoes. 48

13 Grafico EER% utilizando extrator SHR com 200 de replicacao . . . . . . . 52

14 Grafico EER% utilizando extrator SHR com 600 de replicacao . . . . . . . 52

15 Grafico EER% utilizando extrator MFFT com 200 de replicacao . . . . . . 53

16 Grafico EER% utilizando extrator MFFT com 600 de replicacao . . . . . . 53

Lista de Tabelas

1 Tabela dos valores medios de pitch (em Hz) medidos na base de treinamento 46

2 Tabela dos valores medios de pitch (em Hz) medidos das sete gravacoes . . 47

3 Tabela da taxa de reconhecimento,teste parcial 4 x 3. . . . . . . . . . . . . 50

4 Tabela da taxa de reconhecimento, teste total 7 x 2. . . . . . . . . . . . . . 51

Lista de Siglas

AHR Accurate short-term analysis pitch and harmonicsAMDF Average magnetude difference functionASV Sistemas Automaticos de VerificacaoAUTOC Modified autocorrelation method clippingCDS Cosine Distance ScoringCEPSTRAL Cepstrum CoefficientCER Crossover Error RateDARD Data reduction methodDE Distancia EuclidianaEER Equal error rateELSDSR English Language Database for Speaker RecognitionFAR False Acceptance RateFRR False Rejection RateGMM Gaussian Mixture ModelHNN Hidden Markov ModelISO International Organization for StandardizationkNN k nearest meighboorsLHS Log-Harmonic SummationLLR Log Likelihood RatioLPC Linear Predictive CoefficientsMFCC Mel-frequency cepstral coefficientsMFFT Maximum value of Fast Fourier TransformNFC Normalized Correlation FunctionNN Neural NetworkPEFAC A Pitch Estimation Filter robust to high level of noisePEVIM Plataforma de Estudo de Voz Instituto MackenziePIN Personal Identily NumbersPLDA Probabilistic Linear Discriminant AnalysisPLP Perceptual Linear PredicitionPNCC Power-Normalized Cepstral CoefficientsPROC Parallel processing methodRASTA Relative Spectral Perceptual Linear PredicitionSHR Subharmonic-to-Harmonic ratioSI Speaker IdentificationSIFT Simplified inverse filtering techniqueSRH Summation of Residual HarmonicSV Speaker VerificationSVM Support Vector MachineTD Texto DependenteTI Texto IndependenteVQ Vector QuantizationZCR Zero-crossing rate

1 INTRODUCAO

O objetivo desse trabalho e propor e desenvolver um metodo de reconhecimento de

um locutor com base nas caracterısticas vocais, utilizando-se para isso o Pitch, com tex-

tos pronunciados independentes e de curta duracao, tendo aplicabilidade em sistemas

biometricos na identificacao e reconhecimento do locutor.

Um sistema de reconhecimento de voz deve identificar o locutor baseado nas emissoes

sonoras vocais (palavras ou frases) emitidas por uma pessoa , transformando-as em

variaveis segmentadas no tempo, denominadas de caracterısticas. Os sinais estao dire-

tamente associadas as propriedades fisiologicas do locutor (RABINER, 2010) que se dife-

renciam pelo tamanho e formato do trato vocal, boca ,cavidade nasal, etc. Acrescenta-se a

isso aspectos de sotaque involuntario , campo lexico de palavras , mudancas involuntarias

de parametros acusticos, etc , tornando a identificacao do locutor uma tarefa bastante

complexa.

Sistemas de reconhecimento de locutor podem ser divididos em dois modelos: iden-

tificacao de locutor (conhecido como speaker identification - SI) e verificacao de locutor

(speaker verification - SV). O SI tem como proposito identificar um locutor a partir de

um banco de dados de gravacoes de vozes de diversas pessoas, enquanto SV tem como

objetivo a autenticacao de uma pessoa de forma comparativa com uma amostra previ-

amente gravada (FURUI, 2000). Sistemas automaticos de verificacao de locutor(ASV -

Automatic speaker verification) sao categorizados em texto-dependente (TD) (HEBERT,

2008) e texto-independente (TI) (KINNUNEM; LI, 2010).

Texto-dependente (TD) e quando o reconhecimento do locutor e feito por meio de um

enunciado previamente treinado em uma base gravada e o mesmo enunciado e pronunciado

na fase de teste para comparacao e execucao do reconhecimento , por exemplo: ”abre-te

sesamo”, Texto-independente (TI) e quando o texto pronunciado na fase de treinamento

e teste sao diferentes. Sistemas de TI sao mais complexos, exigem a extracao de carac-

terısticas mais complexas do locutor, bem como modelos de identificacao e classificacao

mais robustos (SALLEH, 2011).

O estado da arte de Sistemas Automaticos de Verificacao (ASV) demostra consi-

deravel nıvel de acuracidade de verificacao do locutor quando estao disponıveis gravacoes

com longo tempo de duracao em bancos de dados. Nao existe uma definicao padrao

para gravacoes de curto tempo de duracao para sistemas ASV. Contudo e observado

que a grande maioria das publicacoes cientıficas considera segmentos de 5 a 10 segun-

dos para identificacao do locutor como tempos curtos para validacao de experimentos e

analises (ARNAB; SAHIDULLAH; SAHA, 2017). O metodo proposto utiliza um tempo

de gravacao do locutor para reconhecimento de tres segundos, tanto para a base de trei-

namento como para a base de teste.

Em revisoes feitas por (SUTHERLAND, 1989) e (ROONEY, 1990) ,foi provado que

o contorno do Pitch pode ser usado para reconhecimento do locutor. Estudos tem in-

dicado que o pitch por si proprio e um parametro de baixa performance de reconheci-

mento, porem combinado com outras caracterısticas tais como intensidade , frequencias

harmonicas , coeficientes lineares preditivos entre outros, resultara em melhorias de de-

sempenho (SALLEH, 2011).

Uma questao importante e a eficiencia da modelagem e do classificador utilizado na

busca e no reconhecimento do locutor. Convencionalmente utiliza-se tecnicas de Hidden

Markov Model (HMM) ou Gaussian Mixture Model (GMM) (ANANTHAN; KUMARI,

2013). Redes Neurais tem sido utilizada como um metodo alternativo e atual para resolver

problemas de reconhecimento, numa forma hibrida de trabalho. Para esse projeto estara

sendo utilizada a tecnica k-NN (k nearest neighboors) (SILVA; SARAJANE; CLODIS,

2016) , um classificador simples de ser implementado e de facil compreensao , que sera

aplicado no metodo aqui proposto.

O estagio final envolve a classificacao e teste das informacoes obtidas. Sao com-

putadas pontuacoes para cada locutor de modo a se obter uma classificacao dos me-

lhores ranqueados , seja de forma ascendente ou descendente dos valores, e dispor em

uma ordem hierarquica. Extistem diferentes metodos para pontuacao e classificacao,

tais como LLR (Log Likelihood Ratio),CDS (Cosine Distance Scoring),SVM(Support Vec-

tor Machine),PLDA (Probabilistic Linear Discriminant Analysis),etc (DEHAK et al.,

2009)(NAYANA; MATHEWA; THOMASA, 2017). Para esse trabalho foi utilizado o

metodo sequencial de escolha atraves do algoritmo K-Nearest Neighbors(k-NN).

O desafio e utilizar gravacoes com sentencas de curto tempo de duracao , tres se-

gundos para cada enunciado de gravacao de cada locutor na fase de treinamento e tres

segundos para a fase de teste, respectivamente , aplicar o metodo proposto de replicacao

das caracterısticas do Pitch ,fazer comparacoes atraves do metodo de classificacao k-NN,

de modo a fazer a identificacao do locutor, utilizando-se para isso textos independentes.

O crescimento das pesquisas em reconhecimento de padroes demonstra o interesse

em melhorar a eficiencia bem como a simplificacao de sistemas baseados nesta area.

Isto e devido as aplicacoes praticas que sao motivadas pela necessidade das pessoas em

comunicar-se com maquinas computacionais por meio de uma linguagem natural e o inte-

resse na ideia de projetar e construir maquinas que possam realizar algumas tarefas com

habilidades comparadas ao ser humano (TORRES; SANFELIU, 2000). A proposta desse

trabalho nao tem como objeto o reconhecimento de palavras e sim o reconhecimento de

locutores.

Entre estas aplicacoes, tem-se os sistemas baseados no reconhecimento de padroes de

sinais de voz e de locutores. Estes sistemas trazem benefıcios em muitos ambitos, tais

como telefonia, em que os clientes sao direcionados atraves de comandos e reconhecimento

de voz (CARDOSO et al., 2010); na industria automotiva por meio da ativacao de dis-

positivos no interior do veıculo (WEIFENG et al., 2013); nos sistemas de computacao

pelo uso de programas utilitarios, sistemas de autenticacao bancaria por reconhecimento

de voz, aplicacoes em robotica (KOO et al., 2014), automacao residencial e hospitalar

(CUBUKCU et al., 2015), etc. Sao inumeras as possibilidades de aplicacoes com sistemas

de reconhecimento da fala ou do locutor.

A motivacao para escolha da linha de pesquisa deste trabalho , surgiu durante anos de

experiencia profissional do autor de 1986 a 2016 nas empresas de equipamentos e servicos

de Telecomunicacoes. Nesse perıodo o autor foi responsavel por trazer e homologar novos

produtos e servicos para call centers e sistemas de telefonia.

O presente documento faz abordagem de todo processo da emissao de voz, suas ca-

racterısticas tecnicas e fisiologicas. Em seguida sao apresentados quais os procedimentos

que devem ser adotados para reconhecimento de um locutor, bem como os principais

parametros de medicao e suas caracterısticas de validacao. Serao abordados alguns algo-

ritmos de extracao , metodos de modelagem e classificacao, por fim sera apresentado o

modelo proposto de replicacao de pitch e resultados e avaliacoes obtidos.

2 REFERENCIAL TEORICO

A palavra biometria vem da juncao das palavras gregas Bios (que significa vida) e

metron (que significa medida). Na area tecnologica, biometria indica as caracterısticas

fısicas, biologicas e unicas dos seres humanos podendo ser usada em mecanismos de iden-

tificacao e autenticacao (FURUI, 2000). O mecanismo de biometria apresenta aumento

na seguranca de sistemas de autenticacao se comparado com os tradicionais como: senha

de PINs (Personal Identity Numbers), cartao magnetico e chave eletronica, entre outras

(LIU; SILVERMAN, 2001).

A biometria e o recurso que possibilita identificar pessoas por suas caracterısticas

fısicas ou comportamentais, como por exemplo, retina, ıris, impressao digital , geometria

da mao , face ,assinatura, impressao vocal (voz) , DNA , odor , entre outras que permitem

definir a sua individualidade (BOLLE et al., 2004).

A biometria da voz e uma das formas biologicas de reconhecimento. Com uma simples

gravacao e possıvel fazer a analise das caracterısticas unicas da voz para fins de auten-

ticacao, sendo uma arma tecnologica na guerra contra operacoes fraudulentas em diversas

areas, especialmente quando levada em conta sua caracterıstica com relacionamento com

usuarios remotos. E um metodo nao invasivo e de nao necessita de dispositivos externos

complicados para coleta dos dados (FURUI, 2000).

O processo de biometria contempla basicamente duas variaveis que se alteram cons-

tantemente , uma delas respeito as caracterısticas extraıdas do sinal de voz e a outra

refere-se ao meio ou metodo utilizado para se obter a informacao , denominado de ca-

nal. No caso da biometria de voz , as pequenas variacoes da voz , seja na amplitude ,

cadencia , pronuncia, etc , podem ocasionar alteracoes nos parametros extraıdos para sua

comparacao. Quanto as pertubacoes do meio e do metodo utilizado para a gravacao ,

como ambientes ruidosos , linha telefonica , equipamentos do meio de transmissao entre

outros, elas afetam diretamente a informacao e suas caracterısticas originais (RABINER,

2010)(SALLEH, 2011).

2.1 Pre-processamento

O pre-processamento do sinal de voz envolve o segregamento do enunciado do locutor

em tres tipos de segmentos, capturados durante o processo de gravacao:

i. Os segmentos uteis, nos quais esta a energia considerada audıvel e util dos

fonemas considerados vogais e utilizados nas fases seguintes do pre-processamento;

ii. Os segmentos de silencio que referem-se a pausas na elocucao e devem ser

removidos por nao serem uteis;

iii. Os segmentos com fonemas nao-vogais (tambem chamada de unvoiced) que

apesar de fazerem parte do enunciado , nao trazem consigo informacao util de voz

e devem ser removidas.

A extracao da parte util do enunciado e importante pois permite substancial reducao

na complexidade computacional dos proximos estagios descritos abaixo (FURUI, 2000).

2.1.1 Remocao do ruıdo

Ruıdos sao interferencias indesejaveis os quais tendem a degradar a performance dos

sistemas de identificacao do locutor. A remocao do ruıdo e feita atraves de uma tecnica

de decomposicao do sinal (RABINER, 2010). Os ruıdos na comunicacao nada mais sao

qualquer elementos que interfiram no processo da transmissao de uma mensagem de um

emissor para um receptor. Os ruıdos podem ser resultados de duas fontes: elementos

internos, sao os ruıdos gerados pelos componentes eletronicos responsaveis pela gravacao

ou mesmo transmissao e elementos externos, como ruıdo cosmico de fundo, ruıdo das

estrelas (incluindo o Sol), eletricidade estatica, raios, ignicao de motores, etc. Ambos

possuem o mesmo efeito que e limitar o desempenho do sistema de comunicacao; distorcer

e degradar a informacao recebida (FURUI, 2000).

2.1.2 Enquadramento ou Segmentacao

O enquadramento ou segmentacao e uma tecnica que limita a menor regiao da voz

gravada util. O estado-da-arte em sistemas ASV permite utilizar tres tipos de tecnicas

de segmentacao: sub-segmento , segmento e supra-segmento. Sinal de voz analisado com

enquadramento de tamanho e limites de deslocamento entre 3-5 ms sao conhecidos como

analises em sub-segmento. Estudos revelam que sistemas para identificacao do locu-

tor que utilizam analises de sub-segmento contem consideravel e especificas informacoes

do locutor(YEGNANARAYANA et al., 2005). No caso de analises com segmento , o

enquadramento e o deslocamento estao no limite de 10-30 ms para extracao das carac-

terısticas , principalmente referente ao trato vocal. As informacoes obtidas e origina-

das do trato-vocal podem ser consideradas quase-estacionaria para analises e processa-

mento(RABINER; SCHAFER, 1978)(SHAUGHNESSY, 1987). Sistemas de extracao das

caracterısticas supra-segmento , onde a voz e segmentada usando tamanhos de segmentos

da odem de 100-300 ms, incorporam caracterısticas do comportamento do trato vocal

no locutor , tais como duracao da palavra , velocidade da fala , acentuacao , etc. Es-

tudo demonstra que caracterısticas supra-segmento podem ser utilizadas com eficiencia

em sistemas para reconhecimento do locutor (ATAL, 1972)(YEGNANARAYANA et al.,

2005).

2.1.3 Janelamento

Janelamento e uma forma de prover uma amortizacao espectral nos quadros elabora-

dos na fase de enquadramento. E feito em cada quadro (em torno de 20 a 30ms) de modo

que o sinal fique proximo a zero no inicio e final de cada quadro. A tecnica de janela de

Hamming e usada pois permite uma larga aba de captura e com as bordas amortizadas e

de pequena dimensao (RABINER; SCHAFER, 1978)(SHAUGHNESSY, 1987).

2.2 Classificacao e analise da fala

A autenticacao biometrica pelo reconhecimento da voz e baseada no fato de que as

caracterısticas fısicas do indivıduo sao unicas. O aspecto fısico mais relevante e a forma do

trato vocal, que e composto por todos os orgaos e cavidades que participam da producao

da fala (MAGALHAES, 2001).

A identificacao do locutor e a procura de uma amostra da voz representada por

parametros de um modelo matematico baseado na fisiologia humana em um banco de

dados. Existem diversas metodologias e algoritmos de procura, cada um com seu nıvel de

acuracidade, complexidade e robustez. Essa fase consiste em tomar a decisao do potencial

de uma determinada amostra analisada e verificar se a mesma consta ou nao em um banco

de dados (SALLEH, 2011).

Os nıveis de assertividade caracterısticos da biometria de voz dependem muito dos

algoritmos e da metodologia adotados. Suas caracterısticas originais poderao estar bas-

tante desiguais ou mesmo corrompidas como por exemplo: um resfriado, ruıdo externo em

excesso, estado emocional (choro) , formas de imitacao de voz , sintetizadores eletronicos

, entonacao, etc. Nesse caso o nıvel de percepcao do sistema ou mesmo dos resultados

obtidos pelo algoritmo sao imprevisıveis, com grande chance de erro no processo de clas-

sificacao e identificacao (FURUI, 2000). Ambientes controlados para formacao de banco

de dados para treinamento sao sempre desejados, mas deve-se analisar qual modelo de

trabalho e sistema se deseja implementar. A inclusao de gravacoes no banco de dados de

treinamento , principalmente para sistemas de identificacao do locutor (SI) , que conte-

nham caracterısticas de voz fora do padrao original , dependendo do objetivo proposto,

podem ser consideradas como colaborativas em um processo de reconhecimento de um

locutor (SALLEH, 2011).

O sinal de fala e considerado quase-periodico devido a variacoes da vibracao das cordas

vocais e do formato do trato vocal. Essas variacoes, inicialmente, nao sao controladas pelo

locutor e nao sao importantes para a inteligibilidade numa forma geral. A partir da desco-

berta dessa quase-periodicidade determinada em milissegundos (em torno de 20 a 30ms)

e do uso de tecnicas em processamento digital de sinal , houve um crescente aumento nas

pesquisas e desenvolvimentos da biometria de voz e do estudo da fala (SHAUGHNESSY,

1987). A emissao do sons da fala podem ser resumidamente classificadas em tres, de

acordo com seu modo de excitacao.

i. Os sons pronunciados e produzidos do ar forcado pelos pulmoes que atravessam

a traqueia e passam pelas cordas vocais, que inicialmente tensionadas vibram

numa determinada oscilacao, produzindo assim pulsos quase-periodico de ar que

excita todo o trato vocal . Podemos classificar as vogais e algumas consoantes

com esse formato , esse tipo de excitacao produz informacao de frequencias uteis

para uma possıvel classificacao de voz(RABINER; SCHAFER, 1978).

ii. As consoantes que tem caracterısticas fricativas, sao conhecidas como unvoice ,

pois apesar de possuırem energia e amplitude nao apresentam nenhuma ou muito

pouca informacao para uma classificacao em frequencia. Podemos enumerar as

consoantes tipo /s/, /f/ e /z/. A producao dessas consoantes fricativas na sua

grande maioria sao independentes da corda vocal, sao produzidas a partir de

localizadas contracoes e formato do trato vocal(FURUI, 2000).

iii. As denominadas explosivas, como o /p/ , /t/ e /k/. Sao formadas a partir

de sons que ocorrem impulsivamente da liberacao rapida com alta-pressao de

ar produzida por um processo de retencao do fluxo de ar no trato vocal, sendo

basicamente controlados pela lingua e pelos labios. Esse tipo de excitacao tambem

pode produzir informacao de frequencias uteis para uma possıvel classificacao de

voz (FURUI, 2000).

2.3 Fisiologia na emissao da voz

O processo de producao da fala envolve basicamente tres sub-processos: geracao ,

articulacao e radiacao. O conjunto de elementos fisiologicos para a producao da fala tem

caracterısticas unicas em cada ser humano. Assim cada pessoa produz um sinal de voz

com propriedades acusticas distintas. Esse conjunto tem suas caracterısticas fisiologicas

do trato vocal desenvolvidas ao longo da vida e estao diretamente relacionadas ao meio

onde vive, seus habitos e maneiras de falar. A producao de uma onda da voz e biologi-

camente produzida por uma sequencia de eventos, que iniciam do ar vindo dos pulmoes ,

passam pelas pregas vocais ( conhecidas como cordas vocais ) posicionadas na laringe e

sao modificadas pela ressonancia de um tubo formado por todo o trato vocal (RABINER;

JUANG, 1993). Na Figura 1 , sao apresentados os principais elementos fisiologicos para

a producao da fala.

2.3.1 Trato vocal

O complexo tubular composto de musculos e tecido osseo (incluindo as cartilagens)

sao os principais responsaveis pela producao dos diferentes sons caracterısticos da lıngua

falada ( ex: ingles, portugues, frances, etc.). Cada componente fisiologico do trato vocal

possui sua caracterıstica especıfica e peculiar na producao da fala que se altera no decor-

Figura 1: Trato Vocal

(FURUI, 2000)

rer de uma conversa. Podemos destacar 11 componentes fisiologicos do trato vocal que

trabalham para essa emissao: labios superior e inferior, dentes superiores e inferiores ,

lıngua , ceu da boca , faringe , cavidade nasal , laringe , traqueia , pulmoes , musculatura

respiratoria e a principal , as cordas vocais (SHAUGHNESSY, 1987).

A quase semi-periodicidade apresentadas durante uma vogal , o grande espectro de

frequencia contido em diferentes sons e a tendencia do sinal gradualmente mudar de

padrao entre sons demostram que a fala nao e uma sequencia de sons em pronto estado

do tipo pre-formatada ; mudancas abruptas ocorrem de um instante a outro. Mesmo em

caso de transicoes abruptas, pequenos sinais frequentemente ocorrem antes e depois da

descontinuidade. Mudancas no formato do sinal da fala, gradual ou abrupta, resultam

em um movimento do trato vocal e suas articulacoes, com raros casos nos quais a mesma

permanece em uma posicao fixa por mais de 40 ms (ATAL, 1972).

2.3.2 Pitch ou Frequencia fundamental

A voz e produzida quando as cordas vocais sao tensionadas e vibram com a pressao do

ar, forcando a glote a se abrir (glote e uma estrutura localizada na laringe que tem a funcao

de controlar o fluxo de ar dos pulmoes). A frequencia de trabalho das cordas vocais, devido

a essa pressao de ar impulsionada pelos pulmoes, e definida como Pitch, ou frequencia

fundamental. Essa frequencia varia de pessoa para pessoa e depende exclusivamente da

dimensao da corda vocal, sua flexibilidade, sua qualidade fisiologica e de como a mesma

se encontra fisicamente estruturada na laringe. O valor do Pitch para um homem adulto

pode variar de 50 Hz ate 250 Hz e para mulheres e criancas podendo chegar a valores de

500 Hz (RABINER; JUANG, 1993). Um locutor pode controlar o Pitch do som que esta

sendo produzido, pois o sistema e todo apoiado por musculos e cartilagens que podem

ser alteradas atraves de contracoes musculares. A diferenca dos valores da frequencia

fundamental entre diferentes locutores e grupos de locutores tem sido vista como um

grande potencial para reconhecimento automatico de voz (SALLEH, 2011).

No momento inicial da emissao de uma palavra (seja uma vogal ou nao) , acontece a

primeira explosao de energia fornecida por todo sistema do trato vocal para emissao de

determinado som. Essa primeira explosao energia contem em geral uma frequencia F0

que e definida como Pitch, seguida de outras frequencias F1 , F2 e F3 de menor potencia,

conhecidas como frequencias formats , ou tambem chamadas de harmonicas (RABINER;

JUANG, 1993).

As frequencias que determinam a inteligibilidade do que e ouvido pelo ser humano

esta no limite de 20 Hz ate 4000 Hz. Todavia a frequencia produzida pelo ser humano

pode ser mais alta do que esse valor (podendo chegar ate 20.000 Hz), principalmente para

as criancas e mulheres (NAZAR, 2002).

A Figura 2 sao apresentadas as formas de ondas das vogais faladas (em ingles) repe-

tidas por cinco vezes. Note a quase periodicidade caracterıstica da fala de uma vogal e

tambem a sua variacao espectral, vide marcacao F0 , F1 e F2 na figura.

Diversos metodos sofisticados tem sido desenvolvidos para se obter as medidas do

pitch, concebidos de modo a minimizar os erros e maximizar a performance.

2.3.3 Algoritmos de deteccao de pitch

Basicamente , os algoritmos tem como foco principal a deteccao da frequencia funda-

mental (pitch) de um determinado quadro(frame) de voz, separando do mesmo intervalos

de silencio ou fonemas nao vogais. Os algoritmos de deteccao de pitch podem ser divididos

entre (RABINER et al., 1976):

a) Um grupo de algoritmos que usa principalmente as propriedades do domınio

Figura 2: Sinal Vocal

(SHAUGHNESSY, 1987)

do tempo do sinal da voz.

b) Um grupo de algoritmos que usa principalmente as propriedades do domınio

da frequencia do sinal da voz.

c) Um grupo de algoritmos hıbridos , que utilizam tanto o domınio do tempo

quanto o da frequencia.

Abaixo sao relacionados alguns algoritmos de deteccao de pitch , cada qual com seu

nıvel de desempenho, robustez e complexidade.

• Normalized Correlation Function(NCF). (ATAL, 1972)

•Modified autocorrelation method clipping (AUTOC). (J.J.DUBNOWSKI, 1976)

• Cepstrum Coefficient (CEPSTRAL). (RABINER, 2010)(FURUI, 2000)

• Simplified inverse filtering technique (SIFT). (MARKEL, 1972)

• Data reduction method (DARD). (MILLER, 1975)

• Parallel processing method (PROC). (SCHAFER; RABINER, 1970)

• Average magnetude difference function (AMDF). (ROSS, 1974)

• Log-Harmonic Summation(LHS) (HERMES, 1988)

• Summation of Residual Harmonics(SRH) (DRUGMAN; ALWAN., 2011)

• Subharmonic-to-Harmonic ratio (SHR). (SUN, 2000)

• Accurate short-term analysis pitch and harmonics (AHR). (BOERSMA, 1993)

• Maximum value of Fast Fourier Transform (MFFT)(RABINER, 2010)

• A Pitch Estimation Filter robust to high level of noise (PEFAC) (GONZALEZ;

BROOKES, 2014)

Os algoritmos AUTOC , DARD , PROC e AMDF trabalham no domınio do tempo,

o CEPSTRAL e MFFT no domınio da frequencia e os outros algoritmos SHR , AHR

, LPC entre outros , sao algoritmos hıbridos. Outras tecnicas de obtencao do pitch

podem ser relacionadas,como: Zero-crossing rate(ZCR), Autocorrelation, Phase Space ,

Component Frequency Ratios, Filter-Based Methods, Multi-Resolution Methods, Neural

Networks e Maximum Likelihood Estimators. A proposta deste trabalho nao e estudar ou

mesmo comparar tecnicas de extracao da frequencia fundamental. Foram utilizados tres

algorıtmos para extracao do pitch, o Cepstrum Coefficient (CEPSTRAL) , Subharmonic-

to-Harmonic ratio (SHR) e Maximum value of Fast Fourier Transform (MFFT). A escolha

foi feita com base no grau de complexidade e robustez do extrator, bem como a disponi-

bilidade do programa e seu algoritmo.

2.3.4 Problemas na deteccao do pitch

A medida precisa e confiavel do perıodo da Frequencia Fundamental (pitch) de um

sinal da fala e sua forma de onda e extremamente difıcil por quatro principais razoes

(RABINER et al., 1976).

A primeira razao e que a forma de onda da excitacao glotal nao e uma sequencia

perfeita de pulsos periodicos.

A segunda dificuldade e medir o perıodo do pitch devido a interacao entre o trato

vocal e a excitacao glotica. Em alguns casos, os formantes do trato vocal podem alterar

significativamente a estrutura da forma de onda glotal. Tais interacoes geralmente sao

mais prejudiciais na deteccao de pitch durante a rapida movimentacao dos articuladores,

enquanto os formantes estao tambem sendo mudados rapidamente.

Um terceiro problema para medicao confiavel do pitch e a dificuldade em se definir

o inıcio exato e final de cada segmentos da fala. A escolha dos locais exatos de inıcio e

fim do perıodo do pitch sao muitas vezes bastante arbitrarios. A falta de tal consistencia

podem levar a falsas estimativas de perıodo de do pitch. A figura 3 sao apresentados duas

possıveis escolhas para definir um marcador de pitch diretamente com base em medicoes

de forma de onda. As duas medicoes de forma de onda mostradas podem (e muitas vezes

irao) dar valores ligeiramente diferentes de pitch. As discrepancias do perıodo do pitch sao

devidas nao apenas a quase-periodicidade da forma de onda da fala, mas tambem pelo fato

de que FO (frequencia fundamental) ser sensıvel a estrutura dos formantes(harmonicas) ,

bem como o cruzamento por zero (zero crossing) ao ruıdo e nıvel DC da forma de onda

(RABINER et al., 1976).

Figura 3: Marcador do Pitch

(RABINER et al., 1976)

Uma quarta dificuldade na deteccao de pitch e distinguir entre um quadro de silencio

e uma fala de voz com baixa intensidade. Em muitos casos transicoes de segmentos entre

silencio e de baixa intensidade sao muito sutis e portanto, sao extremamente difıceis de

identificar.

Alem das dificuldades discutidas acima para determinacao do perıodo de pitch , com-

plicacoes adicionais ocorrem quando se esta considerando a transmissao de voz atraves

de um sistema de telefonia, os efeitos incluem filtragem linear, processamento nao linear

e adicao de ruıdo ao sinal da fala.

No que diz respeito a filtragem linear, o sistema de telefonia atua como um filtro

passa-faixa (banda passante aproximadamente de 200 Hz a 3200 Hz) que pode atenuar

significativamente o sinal da frequencia fundamental ( pitch ) e suas harmonicas, dificul-

tando desse modo a deteccao do valor do pitch.

Contribuicoes nao lineares do sistema de telefonia , dependendo muito do sistema

especıfico de transmissao utilizado, podem incluir:

1) Distorcao de fase.

2) Atenuacao da amplitude do sinal da fala.

3) Interferencia indesejada entre duas ou mais mensagens.

4) Distorcao da voz devido a intensidade da gravacao.

Deve-se notar que nao se espera que todos os itens acima ocorram simultaneamente.

Assim, o efeito geral da telefonia na estrutura da onda da fala e de tal forma que torna-se

mais difıcil de se detectar o valor do pitch (RABINER et al., 1976).

2.4 Procedimentos de reconhecimento de um locutor

Podemos resumir em dois procedimentos eficientes do reconhecimento de voz de um

locutor (ATAL, 1972).

Primeiro , pode-se fazer o reconhecimento de voz do locutor por inspecao visual

dos dados e distinguir o conjunto das diferencas do pitch e das frequencias forman-

tes(harmonicas) de um locutor comparado com outro, por meio da analise espectrografica

da voz. E um recurso interessante, porem pouco utilizado, que permite entender como e

possıvel fazer uma classificacao de um locutor desconhecido. Esse procedimento foi uti-

lizado por varios anos, sendo bastante pesquisado em algumas areas de estudo, como os

patologicos(ATAL, 1972).

No segundo e mais utilizado, a decisao e feita em computacao por meio de modelos de

classificacao, seja por metodos estatısticos ou atraves de algoritmos de pesquisa ,utilizando

ferramentas especificas tais como: Hidden Markov Model (HMM),Gaussian Mixture Mo-

del (GMM) , Vector Quantization(VQ), Rede Neural (NN), k-Nearest Neighbors(k-NN)

entre outras(ATAL, 1972)(FENG, 2004)(HONG.SU et al., 2016).

Novos metodos de extracao e classificacao tem sido cada vez mais estudados na atua-

lidade em pesquisas de reconhecimento do locutor . A crescente utilizacao de tecnicas de

processamento digital de sinais, o aumento da capacidade computacional em conjunto com

a disponibilizacao de ferramentas de softwares, permitem cada vez mais a criacao de novos

algoritmos de procura e descobertas do locutor(NAZAR, 2002)(SALLEH, 2011)(SNYDER

et al., 2018).

Independente do modelo adotado para classificacao ou mesmo do recurso utilizado,

e necessario que seja executado uma sequencia de eventos tecnicos de levantamentos ,

definicoes de variaveis e analise de resultados , para que o procedimento de reconhecimento

de voz de um locutor seja efetivo. A seguir e apresentado quatro fases minimas que devem

ser processadas para elaboracao de um sistema de Reconhecimento de voz de um locutor

(ATAL, 1972)(SALLEH, 2011).

2.4.1 Fase 1: Formacao de design e conjuntos de teste

Nesta fase determina-se a quantidade de enunciados que serao gravados por locutor

, ambiente de gravacao (acustica, ruıdos, interferencias, etc) , equipamentos utilizados,

quantas vezes cada enunciado sera repetido por locutor , tempo de gravacao, tamanho do

arquivo gravado para base de dados , frequencia de amostragem e a quantidade de bits

utilizados para projetos que utilizam processamento digital e tipo de arquivo que sera

armazenado (ex: mp3, wav, ogg, wma, m4a, amr, dts, entre outros). E desejavel que

a formatacao desse design do conjunto de testes seja flexıveis durante todas as fases do

trabalho, para permitir alterar suas variaveis e medir sua eficiencia, de modo que seja

possıvel a comparacao com outros modelos(SALLEH, 2011).

2.4.2 Fase 2: Limites e grupos de analise

Considere uma representacao N-dimensional de enunciados (contornos de pitch) ,

cada enunciado sendo representado por um ponto com N-dimensoes no espaco euclidiano

, ou mesmo , em um sistema de processamento digital de sinal com analise de inumeros

quadros de tamanho de milissegundos. Ambos os casos , os enuniados formarao uma base

de analise bastante vasta que podera inviabilizar o projeto de reconhecimento do locutor

ou mesmo reduzir consideravelmente sua eficiencia no processamento e analise. Cada

modelo de procura possui suas caracterısticas de limitacao ou mesmo de agrupamento,

porem alguns valores devem ser estipulados inicialmente, como: limites de frequencia de

voz que se deseja analisar ( ex: ate 4Khz ) , limite do tempo que se considera como

silencio (sem voz) da fala , valor mınimo da amplitude do sinal que deve ser considerado

para analise de modo a eliminar ruıdos de baixa intensidade e a criacao de grupos de

analise,etc. Isso permite uma analise mais direta do reconhecimento de voz do locutor

(SALLEH, 2011).

2.4.3 Fase 3: Sistema de reconhecimento

Nesta fase, e importante modelar uma estrutura de medicao padronizada em todas

as fases do reconhecimento do interlocultor. A formatacao de uma base treinada deve

obedecer o mesmo padrao do modelo em simulacao, do sistema em analise. Todas as

ferramentas utilizadas na fase de pre-processamento devem dispor de parametros bem de-

finidos de modo a nao existir incompatibilidade de reconhecimento. Nao necessariamente

um arquivo obtido de um projeto de reconhecimento do locutor servira em outro sistema,

pois deve haver compatibilidade de processamento , analise e formatacao de arquivo. E

importante que o sistema consiga carregar padroes populares de arquivos de audios ( ex:

wav) e consiga compatibilizar com o sistema para analise (SALLEH, 2011).

2.4.4 Fase 4: Validacao da performance

Quando se trabalha com sistemas de biometria e seus componentes de medicao, duas

questoes fundamentais sao feitas: Como medir a assertividade do sistema de biometria

proposto ( ou de seus componentes envolvidos)? Como comparar os resultados com dife-

rentes sistemas?

E importante notar que existem documentos elaborados pela International Organiza-

tion for Standardization (ISO) , as normas ISO/IEC 19795-series e ISO / IEC TR 24741:

2018 (ISO24741, 2018) que descrevem um pouco a historia da biometria e varias tecno-

logias biometricas em uso (por exemplo, reconhecimento de impressoes digitais e facial)

, a arquitetura dos sistemas e processos do sistema que permitem validacao e reconheci-

mento automatico usando essas tecnologias. Eles tambem fornecem informacoes sobre a

aplicacao da biometria em varios domınios de negocios, como gerenciamento de fronteiras,

aplicacao da lei e licenciamento de motoristas, consideracoes sociais e de jurisdicao que

normalmente sao levadas em consideracao nos sistemas biometricos e os padroes interna-

cionais que sustentam seu uso. A proposta da verificacao e validacao da performance e

informar se dois modelos distintos se comparados, possuem os mesmos resultados. Podem

ser considerados similares se alguns pontos de pesquisa , definidos como limitantes , combi-

nam. Desse modo pode-se determinar sua performance bem como sua validacao(SALLEH,

2011).

Nos modelos de biometria utiliza-se como padrao a taxa denominada de ”Equal Error

Rate(EER)”uma caracterıstica do sistema de seguranca biometrica utilizado para pre-

determinar os valores limite para a taxa de falsa aceitacao e taxa de falsa rejeicao. Quando

as taxas sao iguais, o valor comum e referido como a taxa de erro igual. O valor indica

que a proporcao de falsas aceitacoes e igual a proporcao de falsas rejeicoes. Quanto menor

o valor da taxa de erro, maior a precisao do sistema biometrico. O EER tambem pode

ser referida como Crossover Error Rate(CER) , que e apresentado no item ”Autenticacao

Biometrica”(BOLLE et al., 2004).

2.5 Autenticacao biometrica

O FAR (False Acceptance Rate - Taxa de Falso Positivo) a relacao de autenticar

os impostores, ou seja, e legitimar um usuario, quando na realidade ele e um impostor

(BOLLE et al., 2004). Valores de FAR proximos a 0% representam sistemas com maior

nıvel de seguranca. O FAR e dada pela equacao 1:

FAR = FP/(FP+TN) (1)

O FRR (False Rejection Rate - Taxa de Falso Negativo) e a relacao de nao autenticar

os usuarios genuınos, ou seja, e nao legitimar um usuario, quando na realidade ele e

genuıno (BOLLE et al., 2004). Valores de FRR proximos a 0% representam sistemas com

menor nıvel de seguranca, e dada pela equacao 2:

FRR = FN/(TP+FN) (2)

Sendo:

FP=Falso positivo,

FN=Falso Negativo,

TN=Total verdadeiro Negativo

TP=Total verdadeiro Positivo

Os dois fatores sao mutuamente independentes, porem para expressar o equilıbrio

criou-se o EER (Equal Erros Rate), tambem chamado de CER (Crossover Error Rate).

Quanto menor for o valor de EER mais preciso e um sistema biometrico. Na Figura

4, podemos verificar o comportamento do indicador em funcao de FFR e FAR (LIU;

SILVERMAN, 2001) (BOLLE et al., 2004).

Figura 4: Analise de EER - Equal Error Rate

(LIU; SILVERMAN, 2001)

2.6 Outras caracterısticas para verificacao do locutor

Como apresentado, existem diversos metodos para se obter o valor da frequencia

fundamental (pitch). Estudos mostram que o mesmo e uma caracterıstica de baixa per-

formance em sistemas de reconhecimento do locutor, pois seus algoritmos de extracao

trazem consigo informacoes algumas vezes irrelevantes, porem combinado com outros

parametros podem resultar em melhorias de desempenho. Abaixo sao relacionadas outras

caracterısticas utilizadas em sistemas de reconhecimento de voz:(SALLEH, 2011)

i. Intensidade

ii. Linear Predicitive Coefficients(LPC)

iii. Cepstral coeficiente(CEPSTRAL) e Mel-frequency cepstral coefficients (MFCC)

iv. Tempo de gravacao das amostras

2.6.1 Intensidade

Alem da frequencia fundamental(pitch) como mencionado acima , a intensidade do

sinal de voz, tambem chamada de ganho pode ser um diferencial e tem sua influencia na

determinacao do locutor. A variacao da intensidade da fala sao causadas pela variacao da

pressao sub-glotal bem como o formato do trato vocal em funcao do tempo. A intensidade

da fala pode ser medida por meio da amplitude da onda sonora que atravessa o trato vocal

em um pequeno intervalo de tempo. Na maioria dos casos de sistemas de verificacao do

locutor a intensidade e usada em conjunto com o pitch. Alguns estudos tambem mostram

que o espectro das frequencias de formantes encontrados nas amostras foram efetivos,

sendo que o pitch estava em segundo lugar (MARKEL, 1972) (HOSSAIN, 2018).

2.6.2 Linear coeficientes preditivos (LPC)

Entre os metodos utilizados para analise da fala, muitos sao baseados na tecnica

denominada modelagem preditiva linear. Sua abordagem teorica, apesar de antiga, e

importante devido sua precisao, velocidade computacional e entendimento do processo

de producao da fala. Dependendo da aplicacao uma forma de coeficiente linear preditivo

(LPC) pode ser mais eficiente do que outra. O LPC tem em seu conceito basico, a analise

teorica da producao do sinal da fala atraves de modelos produzidos pelo estimulo de sons

atraves de tubos ressonantes. Embora aparentemente simplificado, esse modelo e, na

verdade, uma aproximacao matematica consistente da producao de um sinal de voz. A

corda vocal com frequencia e intensidade especıfica excitando o trato vocal e representado

na forma de tubo ressonante. As ressonancias dao origem aos formantes(harmonicas),

ou frequencia caracterısticas do trato vocal quem moldam o som produzido. Como os

sinais de fala variam com o tempo, esse processo de modelagem e feito em pequenas

janelas temporais que sao chamadas de quadros; geralmente 30 a 50 quadros por segundo

e sendo suficiente para analisar uma sentenca/palavra inteligıvel ou representa-la com boa

compressao. LPC e um metodo de estimativa espectral util em muitas areas da producao

de fala, devido a sua caracterıstica de calculo direto do modelo de fala, de sua compactacao

de detalhes espectrais e sua representacao eficiente da sıntese da fala (SHAUGHNESSY,

1987) (HERMANSKY, 1990).

Caracterısticas como Perceptual Linear Predicition (PLP) e Relative Spectral Percep-

tual Linear Predicition ( RASTA PLP) sao obtidas por um conceito percentual dentro

do LPC. O principio basico do RASTA e que o processo de audicao do ser humano e

relativamente insensıvel diante a estımulos de variacao lenta. Basicamente e um metodo

que simula a escuta humana reduzindo a sensibilidade da convolucao do ruido, bem como

a supressao desses componentes que possuem lenta variacao, permitindo desse modo me-

lhor performance nos sistemas de reconhecimento do locutor (FURUI, 2000)](HOSSAIN,

2018).

2.6.3 Cepstral coeficiente(CEPSTRAL) e Mel-frequency cepstral coefficients

(MFCC)

Na analise da fala o grande desafio tem sido encontrar modelos matematicos que mais

se aproximam da producao de fala. O modelo mais comum e a saıda de um sistema linear,

variavel no tempo (que pode ser comparado ao trato-vocal), excitado por pulso quase-

periodico (corda vocal). Porem, uma vez observado que o sinal da fala e o resultado da

convolucao de uma excitacao (cordas vocais ) com a resposta de um momento fisiologico

do trato vocal, a separacao ( ou seja a deconvolucao ) desses dois componentes nao e uma

acao tao simples. Em geral, a deconvolucao de dois sinais convoluidos e impossıvel, mas

funciona no caso de fala porque ambos os sinais (corda vocal e trato vocal ) possuem

caracterısticas espectrais bastante diferentes (RABINER; JUANG, 1993).

O Cepstrum e a transformada inversa de Fourier do logaritmo do espectro de potencias

de um sinal e pertence a area de processamento de sinais homomorficos. Foi introduzida

inicialmente em 1963, e por definicao o Cepstrum e calculada conforme equacao 3 (RA-

BINER; SCHAFER, 1978).

Cepstrum e um anagrama das letras da palavra espectro (spectrum) e definiram um

extenso vocabulario para descrever esta nova tecnica de processamento de sinais. Atual-

mente, os termos Cepstrum , Quefrequency e Melfrequency tem sido utilizados utilizados

em sistemas de reconhecimento do locutor. Paralelamente, Oppenheim (1965) propos

uma nova classe de sistemas chamados ”sistemas homomorficos”no qual o Cepstrum se

classifica. Embora nao-lineares no senso classico, estes sistemas satisfazem a generalizacao

do principio de superposicao. O conceito de filtragem homomorfica (filtering) e bastante

geral, mas tem sido estudado de forma mais extensiva para a combinacao das operacoes

de multiplicacao e convolucao, pois modelos de sinais envolvem estas operacoes (HASAN

et al., 2004).

Figura 5: Sinal de Voz e Cepstrum

(FURUI, 2000)

A Figura 5, o grafico a esquerda e a plotagem de um sinal de voz em um pequeno inter-

valo de tempo de 20ms. O grafico a direita representa o Cespstrum do sinal a esquerda. O

pico de sinal no meio do grafico cepstrum e a frequencia do pitch(frequencia fundamental)

e os picos de menor amplitude representam as frequencias do trato vocal(NAZAR, 2002).

A diferenca entre Cepstrum e Mel-Frequency Cepstrum(MFCC) e que para o MFCC as

frequencias sao lineares ate 1000Hz e logaritimamente espacadas acima de 1000Hz atraves

de uma escala que representa a o sistema auditivo humano. Essa escala e conhecida como

melfrequency , conforme equacao 4 onde mel(f) corresponde ao mapeamento da frequencia

medida em Hertz para a escala melfrequency (RABINER, 2010).

Para cada quadro (em torno de 20 a 30ms) obtido na fase de pre-processamento,

um algoritmo computacional fornecera vetores com as caracterısticas MFCC na saıda,

conforme diagrama da Figura 6.

Power-Normalized Cepstral Coefficients (PNCC) e o um das caracterısticas da voz

desenvolvida a partir do cepstrum com grande performance em ambientes que possuem

alto nıvel de ruido. Alguns metodos de identificacao do locutor utilizam a combinacao de

MFCC e PNCC para aumentar a acuracidade do sistema (KALTAKCHI et al., 2016).

Figura 6: Diagrama de fluxo para obtencao do MFCC

(RABINER, 2010)

2.6.4 Tempo de gravacao das amostras

A performance de sistemas ASV degradam drasticamente com a reducao do tempo de

duracao das amostras utilizadas no treinamento e teste , sendo 10 segundos considerado

o tempo mınimo necessario para sistemas de ASV (HAMILCI; ERTAS, 2012)(POODAR;

SAHIDULLAH; SAHA, 2015)(ARNAB; SAHIDULLAH; SAHA, 2017).

Na figura 7 e apresentada a performance de um sistema de identificacao do locutor em

termos de EER% para teste com segmentos de gravacao com diferentes tamanhos , usando

as tecnicas de classificacao GMM-UBM e i-vector GPLDA , dois metodos de classificacao

considerados estado-da-arte em um corpus NIST SRE 2010 (NIST-SRE, 2010). Os tempos

foram criados por meio de um corte na gravacao original no banco de dados. A duracao

do treinamento foi fixada em 2,5 minutos (ARNAB; SAHIDULLAH; SAHA, 2017).

2.6.5 Outros parametros de representacao da fala

Os parametros apresentados sao usualmente utilizados em sistemas de reconhecimento

do locutor. Esta secao apresenta algumas caracterısticas da voz humana que poderiam

ser utilizadas na identificacao de um locutor.

- Frequencias formantes podem ser definidas como a ressonancia do trato vocal e nasal.

O trato vocal pode variar seu formato modificando diferentes frequencias de ressonancia e

os diferentes sons emitidos. Em uma fala continua as frequencias formantes estao em cons-

Figura 7: Variacao do EER x Tempo de teste de gravacao

(ARNAB; SAHIDULLAH; SAHA, 2017).

tante mudancas. A dificuldade desta abordagem e a obtencao das frequencias formantes

(OLIVE, 1971)(NAYANA; MATHEWA; THOMASA, 2017).

- E fato que as pessoas nunca falam as mesmas palavras na mesma velocidade , na

mesma taxa e uniformidade. Algumas pessoas falam rapido demais e outras mais lenta-

mente. Devido a essas relativas diferencas de velocidades de eventos em uma sentenca,

que nao ocorrem ocasionalmente , existem estudos para mensurar tais diferencas na linha

do tempo de modo a utiliza-las como base para um metodo de identificacao de um locutor

(ATAL, 1976) (SALLEH, 2011).

2.7 Modelagem, aprendizado e classificacao

A extracao das caracterısticas sao usadas para gerar modelos correspondentes para

cada locutor e guardar essa informacao dentro de um banco de dados para posterior

comparacao de performance na fase de testes. A classificacao ou identificacao , e o estagio

final. Pontuacoes sao computadas para cada locutor na base de dados e conforme modelo

adotado. Maior ou menor valor de pontuacao ,representa a similaridade entre a amostra

sob teste e as amostras da base de dados. O teste de identificacao e feito para verificar

qual deles mais se aproxima da amostra de teste.

Os principais elementos de sistemas de reconhecimento sao os subsistemas de ex-

tracao de caracterısticas e a classificacao propriamente dita. A fase da extracao tem como

objetivo computacional extrair parametros do comportamento do sinal da voz, elaborar

modelos de aprendizagem e testar todas as fases do projetado. Modificacoes sao feitas

nesta fase de modo a limitar o numero de variaveis para serem testadas no reconhecimento

do locutor. Esta fase consiste de treinamento e teste, envolve a comparacao dos vetores

das variaveis de entrada derivado de um locutor desconhecido com o vetor referencia

obtido na fase de extracao, conforme diagrama da Figura 8.

Figura 8: Diagrama de Classificao

(CHOU; JUANG, 2003) p.251

Convencionalmente utiliza-se tecnicas de Hidden Markov Model (HMM), Gaussian

Mixture Model (GMM),Vector Quantization(VQ) , i-Vector, entre outras. Redes Neurais

tem sido utilizadas como um metodo alternativo e atual para resolver problemas de reco-

nhecimento, numa forma hibrida de trabalho (FURUI, 2000). Para esse projeto utilizare-

mos tecnicas de kNN (k nearest neighboors), um algoritmo simples de ser implementado

e de facil compreensao, que sera aplicado no metodo aqui proposto de replicacao de pitch.

, O princıpio por tras do algoritmo k-NN classifier (k-vizinhos mais proximos) e encontrar

um numero predefinido de amostras de treinamento que estao mais proximas da distancia

de um novo ponto e prever um rotulo para o novo ponto usando essas amostras. Embora

o processo de classificacao possa ser custosa em alguns momentos conhecida como ava-

liacao preguicosa (lazy evaluation), sua implementacao e simples (SILVA; SARAJANE;

CLODIS, 2016).

O algoritmo k-NN e um classificador robusto e versatil que e frequentemente usado

como referencia para classificadores mais complexos, como Redes Neurais (NN) e Support

Vector Machines (SVM). Apesar de sua simplicidade, k-NN pode superar classificadores

mais poderosos e e usada em uma variedade de aplicacoes.

Para o trabalho foi utilizada a metrica vetorial da Distancia Euclidiana DE(x,y) ,

descrita pela equacao 5. A variavel k do k-NN refere-se ao numero de vizinhos mais

proximos que se deseja encontrar. Por exemplo, se desejar conhecer quais os tres locutores

que possuam vozes similares tecnicamente , o valor de k=3 para uma comparacao atraves

do algoritmo k-NN.

Sendo que xi e yi podem ser entendidos como as amostras de pitch de treinamento e

teste, p e o numero de amostras de pitch e k e a quantidade de exemplares mais proximos

ao exemplar de teste (SILVA; SARAJANE; CLODIS, 2016).

2.7.1 Sistemas de verificacao do locutor

Diversas empresas tais como IBM , Google , Microsoft , Hewlett Packard , T-Systems

entre outras tem desenvolvido grandes projetos de sistemas de reconhecimento de voz e

de interlocutor, apresentando avancos tecnologicos no estado-da-arte.

O processo de biometria da voz contempla basicamente duas variaveis que mudam

constantemente, uma delas e a variacao das caracterısticas extraıdas e a outra e o meio

ou metodo utilizado para obter a informacao, chamado de canal. No caso da biometria da

voz, as variacoes rapidas da voz, seja na amplitude, cadencia, pronuncia, condicoes fısicas

ou emocionais do locutor, etc., alteram os valores das caracterısticas extraıdas para com-

paracao, e a outra e a variacao de os meios de comunicacao para captacao do sinal, como

ambientes ruidosos, linha telefonica, equipamentos de media de transmissao entre outros,

que afetam diretamente as informacoes sao chamados de caracterısticas do canal. Esses

dois aspectos, representam desafios para a biometria da voz e identificacao do locutor, uma

vez que a classificacao lida com vetores de parametros N-dimensionais, localizados em um

hiperplano que sao distintos mas morfologicamente agrupados. Tecnicas como i-vector,

GMM-UBM e redes neurais profundas, conhecidas como DNN (deep neural networks),

sao consideradas o estado-da-arte em sistemas de reconhecimento do locutor (NAYANA;

MATHEWA; THOMASA, 2017).

3 METODOLOGIA

3.1 Metodologia de analise proposta

O sistema de reconhecimento do locutor proposto neste projeto visa classificar padroes

de um locutor, usando o algoritmo k-NN (k nearest neighbor). A metodologia utiliza

parametros para representar uma caracterıstica especıfica da fala, neste caso, os valores

de pitch, obtidos no estagio de pre-processamento do sinal de voz, com a geracao de ma-

trizes temporais. Essas matrizes temporais reproduzem as variacoes globais no tempo,

assim como o espectro do sinal. A replicacao de pitch e usada para aumentar a quan-

tidade de comparacoes de informacoes que e fornecida ao algoritmo k-NN. A gravacao e

processamento de voz para identificacao do locutor sao feitos por meio de uma plataforma

desenvolvida em MATLAB. Todos os valores de pitch sao normalizados no intervalo [0 1]

, individualmente para cada extrator (CEPSTRAL, SHR e MFFT) em conjunto com a

gravacao do locutor que deseja ser identificado, o conteudo dessa tabela e usado como o

conjunto de dados para geracao de um modelo e classificacao com a execucao do algoritmo

k-NN, conforme as quatro etapas descritas abaixo:

a) Primeira etapa, todas as gravacoes utilizadas , tanto para a base treinada como

para a base de teste, sao reduzidas a um tempo de gravacao de tres segundos, com uma

frequencia de amostragem de 8 Khz e com 8 bits de quantizacao.

b) Segunda etapa, por meio de tres extratores , foram obtidos os valores e quanti-

dades de pitch de tres segundos de gravacao. Foram utilizados os extratores (CEPS-

TRAL)(RABINER, 2010)(FURUI, 2000),Subharmonic-to-Harmonic ratio (SHR)(SUN,

2000) e Maximum value of Fast Fourier Transform (MFFT)(RABINER; SCHAFER,

1978).

Devido as caracterısticas de cada extrator, a quantidade de pitchs uteis obtidos por

cada extrator difere em quantidades extraıdas e valores. Em media, cada extrator pode

obter entre 20 a 80 valores de pitchs uteis (em um registro de 3 segundos) que serao

utilizados no modelo proposto de replicacao e posterior classificacao. Foram adotados

como valores de pitchs uteis, aqueles que oscilam entre 30% do valor medio das amostras

de pitchs de uma gravacao de tres segundos. Como observado, devido as variacoes das

caracterısticas extraıdas de um locutor, bem como a variacao do canal de comunicacao,

a quantidade e os valores de pitchs , sofrem mudanca mesmo em uma gravacao de um

mesmo enunciado. A proposta e a comparacao de gravacoes com enunciados diferentes,

ou seja, independe do texto pronunciado.

c) Na terceira etapa, a tecnica de replicacao proposta e aplicada. O metodo consiste

em replicar os valores e quantidades de valores de pitchs obtidos no segundo estagio ate

atingir uma quantidade maxima predeterminada de valores de pitchs. Por exemplo, se

o extrator SHR obteve 50 valores de pitchs a partir de um dado registro de 3 segundos

e o numero maximo de valores de pitchs replicados a serem analisados forem de 600

pitchs (por exemplo), os 50 valores de SHR serao replicados 12 vezes, criando assim um

matriz 1x600 (50 x 12 = 600). Quando definida a quantidade maxima de pitchs (esta sera

mantida para todas as gravacoes , seja da base de treinamento como base de teste) e para

todos os extratores propostos, no caso (CEPSTRAL, SHR e MFFT).

Caso a quantidade maxima nao seja multiplo inteiro da quantidade de pitchs, entao

o valor sera truncado ou completado ate que o valor maximo proposto seja atingido. Do

exemplo anterior, se o MFFT obtiver 70 valores de pitchs uteis de uma determinada

gravacao e o valor maximo para comparacao e de 600 pitchs, teremos o seguinte modelo

de replicacao: 8 x 70 = 560 valores de pitchs e que sera completado com mais 40 primeiros

valores de pitchs dos 70 obtidos no extrator MFFT ate atingir o valor maximo de 600

pitchs.

d) A quarta e ultima fase consiste em identificar um determinado locutor em um banco

de dados previamente gravados, utilizara para isso como classificacao o algoritmo k-NN

(k vizinhos mais proximos). Isso definira os candidatos dentro da base gravada , com

maior probabilidade de ser o locutor que esta sendo testado. O metodo proposto utiliza

os resultados replicados dos tres extratores (CEPSTRAL, SHR e MFFT) e classificados

independentemente por meio do algoritmo k-vizinhos mais proximos.

Na Figura 9 e apresentada de uma forma simplificada o metodo proposto de replicacao

de pitch obtido dos tres extratores (CEPSTRAL, SHR e MFFT), para comparacao e

classificacao usando o algoritmo k-NN.

Figura 9: Diagrama de replicacao proposto

3.2 Descricao das fases do projeto e materiais

Foi utilizado o software MATLAB (MATrix LABoratory) por tratar-se de uma plata-

forma interativa de alta performance voltada para o calculo numerico em diversas areas

da engenharia, alem de disponibilizar ferramentas ja pre-formatadas na area do estudo

da voz.

Para iniciar o projeto foi utilizado um software basico feito em MATLAB e gratuito

obtido na Free Software Foundation, Inc.,675 Mass Ave, Cambridge, MA 02139, USA

(ftp://prep.ai.mit.edu/pub/gnu). A partir desse software foram feitas inumeras alteracoes

e inclusoes de varias sub-rotinas e facilidades , transformando-a em uma plataforma com-

pleta de gravacao e testes de reconhecimento. Esta plataforma recebeu o nome de PEVIM

( Plataforma de Estudo de Voz Instituto Mackenzie). Na Figura 10 e apresentado uma

visao geral da plataforma elaborado. O principal objetivo da plataforma e o carregamento

das gravacao dos enunciados da base de treinamento e teste, obtencao dos valores de pitch

e a geracao de relatorios conforme os algorıtimos (CEPSTRAL, SHR e FTT) propostos.

Figura 10: Visualizacao da Plataforma PEVIM

Durante varias momentos do trabalho foi utilizada a plataforma PRAAT (PRAAT,

2017) fornecida gratuitamente pela Universidade de Amsterda , reconhecida no mundo

academico como referencia na extracao do valor do pitch , de modo a se comparar os

valores obtidos com a plataforma PEVIM , e verificar sua eficiencia.

3.2.1 Analise da gravacao do locutor para obtencao do pitch

De modo a se padronizar a gravacao, bem como o tamanho da amostra , adotou-se

que todas as gravacoes teriam que passar por uma sequencia de qualificacao inicial , na

Figura 11 e apresentado um diagrama simplificado das principais fases de um sistema de

reconhecimento de voz.

Consideracoes adotadas no trabalho:

1) Foram utilizadas as mesmas condicoes de frequencia de amostragem , numero

de bits por amostra em um unico canal de voz. Para isso foi necessario a criacao

de sub-rotinas de re-amostragem, para que ficassem equivalentes.

2) Foram elaboradas rotinas para retirar perıodos de silencio.

Figura 11: Diagrama funcional para identificacao do locutor por classificador

3) Para eliminar ruıdos ou sinais de baixa amplitude, foi adotado um valor re-

ferencia minima aceitavel do sinal , adotou-se um percentual sobre a diferenca

entre o valor DC maximo e o mınimo, conforme equacao 6.

Valor Referencia = Mınimo + (Maximo - Mınimo)*Percentual/100 (6)

Mınimo = Menor valor DC obtido do segmento da amostra de voz

Maximo = Maior valor DC obtido do segmento da amostra de voz

Percentual = % da diferenca entre Maximo e Minimo

Amplitudes abaixo do valor de referencia foram descartados , para o trabalho foi

adotado o percentual de 20%.

4) Para os tres modelos de extrator de pitch e caracterısticas (CEPSTRAL, SHR

e FTT) foi utilizado o mesmo numero de agrupamento de voz, para cada gravacao

de 3 segundos. Por exemplo, numa determinada gravacao de 3 segundos na qual

ocorram 13 eventos de silencios e 6 agrupamentos de vozes uteis para analise do

extrator, todos os modelos utilizarao os mesmos 6 agrupamentos de voz para obter

suas caracterısticas e valores de pitch.

Note que isso nao implica que duas gravacoes com o mesmo texto e do mesmo locutor

possuam o mesmo numero e tamanho de agrupamento de voz. Por exemplo, se um dado

locutor pronunciar o texto ”Eu gosto de estudar no Instituto Mackenzie”duas vez. A

primeira gravacao pode fornecer por exemplo 8 agrupamento de voz , divididos conforme

intervalos ja mencionados e a segunda gravacao pode fornecer 14 agrupamentos de voz,

devido a outros fatores. A utilizacao dessa diferenca da nao linearidade de intervalos e

um diferencial no estudo desse projeto.

Apos cada gravacao passar pela qualificacao acima descrita , sao executados os al-

goritmos de extracao das variaveis para analise do locutor e determinacao de valores de

pitch conforme as caracterısticas de cada extrator (CEPSTRAL, SHR e FTT) e descrito

abaixo.

- Frame Blocking de 128 amostras com 64 de intervalo para os quadros de voz;

- Frequencia de amostragem 8khz;

- Janela de Hamming;

- Limite entre de 50 a 500 Hz para valores de Pitch;

Em media o extrator CEPSTRAL e SHR podem fornecer entre 60 a 80 pitchs por

gravacao de 3 segundos enquanto o extrator MFFT entre 20 a 40 pitchs, da mesma

gravacao.

3.2.2 Base de gravacao utilizada

Sistemas de reconhecimento do locutor de voz, utilizam dois conjuntos de base de

dados denominados ”Treinamento”e ”Teste”. O conjunto de ”Teste”e composto por

gravacoes cujos locutores desejamos identificar, enquanto o conjunto de ”Treinamento”contem

as gravacoes das identidades previamente conhecidas que serao utilizadas para treina-

mento dos algoritmos. Em um conjunto fechado de identificacao, todos os locutores de

”Teste”devem obrigatoriamente ter sua identidade no conjunto ”Treinamento”. Define-se

”opcao de escolha”ou ”rank”o resultado que possui maior probabilidade de semelhanca

entre a amostra de ”Teste”e de ”Treinamento”, quanto menor o numero da opcao ou rank,

maior a chance de similaridade.

O modelo de replicacao proposto foi testado como sistemas automaticos de identi-

ficacao do locutor (Speaker Identification-SI) em textos independentes do pronunciado,

utilizando para isso os registros das gravacoes de treinamento e teste do banco de dados

ELSDSR (English Language Speech Database for Speaker Recognition)(FENG, 2004),

com a finalidade de verificar o metodo proposto de replicacao.

O ELSDSR foi preparado pela Universidade da Dinamarca e referenciado em tra-

balhos similares(HOSSAIN, 2018). Os textos estao em ingles e sao lidos por 20 dina-

marqueses, um islandes e um canadense , totalizando 22 locutores. Todos os usuarios

fazem sete gravacoes, de sete enunciados diferentes, totalizando 154 gravacoes, denomina-

das como base de treinamento. Os mesmos 22 locutores fazem duas gravacoes, diferentes

dos enunciados de treinamento, referente a partes de um texto, totalizando 44 gravacoes,

denominadas como base de teste.

As gravacoes da base de treinamento e de teste possuem entre 5 a 15 segundos de

duracao, cada gravacao carregada para analise foi truncada em tres segundos, como pro-

posto nesse projeto.

O ELSDSR contem gravacoes de voz de 22 locutores, sendo: 10 mulheres e 12 homens

, entre idades de 24 a 63. A maioria deles sao alunos da graduacao e pos-graduacao,

tambem houve participacao de professores. A media de idade e de 31,3 anos.

Abaixo sao apresentados os sete enunciados pronunciados na lıngua inglesa referente

as gravacoes da fase de treinamento.

A) ”Chicken Little was in the woods one day when an acorn fell on her head. It

scared her so much she trembled all over. The poor girl shook so hard, half her

feathers fell out.”

B) ”Billions of black, shrimp-size bugs with transparent wings and beady red eyes

are beginning to carpet trees, buildings, poles, and just about anything else ver-

tical in the U.S. from the eastern seaboard west through Indiana and south to

Tennessee.”

C) ”Oymyakon, in Siberia, is the coldest permanently inhabited place on Earth.

Now geographer and adventurer Nick Middleton reveals the locals’ secrets for co-

ping with the cold.”

D) ”Few shores are immune from the tide of plastic soda bottles, bags, cartons,

and other trash floating on the ocean today. Now a new study suggests the problem

runs deeper: Microscopic bits of plastic permeate the world’s beaches and marine

environment.”

E) ”One hundred years later, the life of the Negro is still sadly crippled by the

manacles of segregation and the chains of discrimination.”

F) ”People are finding medieval toys in Britain’s Thames River?and these toys

have been changing how historians view the lives of medieval kids.”

G) ”My friend Tricia suggests me to drive to the woods to watch the poor bear

being hunted for pleasure. And I say yes.”

Os enunciados das gravacoes de teste foram tirados de um texto de tres paginas sobre

o antigo Egito. Desse texto, a base de dados ELSDSR disponibiliza 44 gravacoes, ou seja,

duas gravacoes por locutor.

Na Tabela 1 sao apresentados os valores medios e o desvio padrao do pitch, separados

por genero, obtidos pelos extratores (SHR, MFFT e CEPSTRAL) das sete gravacoes dos

enunciados acima mencionados do banco de dados ELSDSR, sendo que todas as gravacoes

foram limitadas em um tempo de duracao de 3 segundos.

Tabela 1: Tabela dos valores medios de pitch (em Hz) medidos na base de treinamento

Na Tabela 2 e apresentado o valor medio do pitch das sete gravacoes [a → f] em um

perıodo de gravacao de 3 segundos, separados por extrator.

Tabela 2: Tabela dos valores medios de pitch (em Hz) medidos das sete gravacoes

Na Figura 12 pode ser observada a diferenca entre o valor medio de pitch de uma

voz feminina e uma voz masculina. Em media, para essa base de dados analisada, a voz

feminina obteve um valor medio de 212,197 Hz e a voz masculina um valor de 129,578

Hz, que se encontram dentro dos limites apresentados na literatura (RABINER, 2010).

Figura 12: Grafico do valor medio do pitch (em Hz) dos tres extratores e sete gravacoes.

3.3 Avaliacao do Sistema Proposto

Para atingir o objetivo sao apresentados quatro metodos de avaliacao.

1- Autoteste com a base de treinamento;

2- Teste parcial com a base de treinamento;

3- Teste total com a base de teste;

4- Analise do FAR e FRR;

1- O Autoteste, consiste em utilizar o proprio banco de dados de treinamento como

base de dados para teste, ou seja, 154 gravacoes (7x22 locutores) para o treinamento e as

mesmas 154 para testar o sistema. Para esse primeiro experimento, devido a utilizacao do

metodo de classificacao k-NN no qual a comparacao e feita atraves da distancia euclidiana,

obteve-se uma taxa de reconhecimento de 100%, ou seja, todas as 154 gravacoes foram

identificadas corretamente. Isso pode ser considerado bastante obvio no primeiro momento

, porem esse resultado pode nao ser factıvel para outros modelos de classificacao.

2- No teste parcial , parte do banco de dados de voz de treinamento e utilizado como

treinamento e o restante para teste. Ou seja, adotou-se 88 (4x22 locutores) das 154

gravacoes para treinamento e as 66 (3x22 locutores) restantes foram usadas para testar.

Foram adotados dois modelos de replicacao, com 200 e 600 pitchs, respectivamente. A

taxa de reconhecimento e apresentada conforme Tabela3. Devido a alteracao de 200

para 600 replicacoes de pitchs obteve-se um aumento de 18,2 pontos percentuais na taxa

de reconhecimento para toda a base analisada. Como a base de treinamento possui

quatro gravacoes genuınas, foi adotado que qualquer uma das tres gravacoes testadas e

identificadas, e considerada como reconhecimento do respectivo locutor.

3- No teste total , foram utilizadas as 154 gravacoes (7x22 locutores) da base de

dados de treinamento e as 44 gravacoes (2x22 locutores) da base de testes para avaliar

o desempenho do algoritmo. Foram adotado dois modelos de replicacao , com 200 e 600

pitchs, respectivamente. A taxa de reconhecimento e apresentada conforme Tabela 4.

Devido a alteracao de 200 para 600 replicacoes de pitchs obteve-se um aumento de 13,7

pontos percentuais na taxa de reconhecimento para toda a base analisada. Como a base

de treinamento possui sete gravacoes genuınas, foi adotado que qualquer que seja uma das

duas gravacoes testadas e identificadas e considerada como reconhecimento do respectivo

locutor.

As taxas de reconhecimentos do segundo e terceiro testes acima mencionados, foram

obtidas atraves do reconhecimento da primeira opcao de escolha (pode-se entender como

rank de escolha), ou seja, se um locutor foi encontrado na segunda ou posterior opcao de

escolha, esse valor nao reflete no valor apresentado. Devido ao fato de ser muito proximo

ao limite de semelhanca, e apresentarem valores baixos de taxa de reconhecimento, adotou-

se o modelo de identificacao por grupo de gravacoes de teste, pois um dos objetivos do

trabalho e mostrar a performance do metodo proposto de replicacao, com gravacoes de

enunciados de tres segundos de duracao.

As Tabelas3 e 4 referem-se aos valores obtidos atraves do extrator SHR , os extratores

CEPSTRAL e MFFT mantiveram performance similares, com aumento entre 10 a 20

pontos percentuais no valor da taxa de reconhecimento devido ao metodo proposto de

replicacao.

Tabela 3: Tabela da taxa de reconhecimento,teste parcial 4 x 3.

Tabela 4: Tabela da taxa de reconhecimento, teste total 7 x 2.

4- Para determinacao da taxa de falsa rejeicao (FRR) e da taxa de falsa aceitacao(FAR),

foram utilizadas as gravacoes apresentadas do terceiro metodo acima proposto, ou seja,

154 gravacoes para a base de treinamento (7x22 locutores) e 44 gravacoes para a base de

teste (2x22 locutores). Da base de teste, cada locutor possui duas gravacoes, portanto

das 44 gravacoes, 42 sao consideradas impostoras e para a base de treinamento das 154

gravacoes, 7 sao consideradas genuınas, pois cada locutor gravou sete enunciados. Para

determinacao do FAR e FRR foram considerados os dados obtidos do extrator SHR e

MFFT, extraıdos pela geracao de 44 templates de gravacoes testadas individualmente nas

154 gravacoes da base de treinamento, gerando dessa forma a quantidade de impostores

que ultrapassaram cada um dos limites estipulados para o calculo do FAR e a quantidade

de locutores genuınos abaixo de cada um dos limites estipulados para calculo do FRR.

Todos os valores trabalhados foram normalizados.

Nas Figuras 13 e 14 sao apresentadas as curvas resultantes dos calculos de falsa rejeicao

e falsa aceitacao com a utilizacao do extrator SHR, onde foi possıvel se obter os valores

de EER, referente ao ponto de encontro das duas curvas FAR e FRR. Como observado,

houve uma reducao de 3,03 pontos percentuais no valor do EER%, ou uma melhora de

11,9% na taxa, devido a replicacao passar de 200 para 600 pitchs.

Figura 13: Grafico EER% utilizando extrator SHR com 200 de replicacao

Figura 14: Grafico EER% utilizando extrator SHR com 600 de replicacao

Nas Figuras 15 e 16 sao apresentadas as curvas resultantes dos calculos de falsa rejeicao

e falsa aceitacao com a utilizacao do extrator MFFT, onde foi possıvel se obter os valores

de EER, referente ao ponto de encontro das duas curvas FAR e FRR. Como observado,

houve uma reducao de 4,52 pontos percentuais no valor do EER%, ou uma melhora de

13,03% na taxa, devido a replicacao passar de 200 para 600 pitchs.

Figura 15: Grafico EER% utilizando extrator MFFT com 200 de replicacao

Figura 16: Grafico EER% utilizando extrator MFFT com 600 de replicacao

4 CONCLUSAO

O processo de biometria de voz contempla basicamente duas variaveis que mudam

constantemente: as diferencas nos valores das caracterısticas extraıdas e as diferencas de

canal (meio/metodo de obtencao da voz). Ambos estao diretamente ligados a modelos de

classificacao e seu desempenho, sendo cada vez mais necessario modelos matematicamente

solidos, computacionalmente rapidos e precisos.

Para o trabalho proposto, a quantidade de pitchs comparados e aumentada pela

tecnica de replicacao. E demonstrado que aumentar a quantidade de valores de com-

paracao de pitch tende a melhorar o desempenho de reconhecimento do locutor quando

um algoritmo classificador k-NN e empregado. O objetivo da replicacao e aumentar o

conjunto de comparacoes de caracterısticas extraıdas de uma gravacao de curto tempo de

duracao, no trabalho proposto foi de tres segundos.

Entretanto, deve-se atentar para alguns pontos do modelo proposto de replicacao,

tais como o valor maximo multiplicador comum e na qualidade e uniformidade das in-

formacoes.

Pode-se citar como exemplo 20 pitchs comparados com 40 pitchs , replicados em

”N”vezes, nesse caso temos somente um unico ciclo de comparacao ate 40 pitchs, pois se

repeteriam no ciclo seguinte.

Outro ponto importante e fundamental, e a necessidade da qualidade dos valores

extraıdos e sua uniformidade, pois caso contrario ao inves de compararmos positivamente

os pitchs, podemos cair em um processo de propagacao de erros. Isso pode ser verificado

pelo melhor valor obtido de EER% com extrator SHR comparado com MFFT, apesar de

ambos terem reducoes devido a replicacao.

A obtencao das caracterısticas da voz em curto tempo de duracao de enunciado traz

o problema do inıcio da gravacao , pois acaba trazendo consigo informacoes indesejaveis

como ruidos ou mesmo de silencio, caracterısticos de um inıcio de gravacao.

Para o trabalho em questao, as gravacoes carregadas do banco de dados ELSDSR

foram previamente trabalhadas de forma a minimizar esse efeito, com a criacao de rotinas

de carregamento onde foi possıvel a obtencao das informacoes do sinal de voz que conte-

nham alta energia (em outras palavras, som de boa qualidade e audıvel) e fundamental

para a performance do modelo proposto, pois caso contrario poderiam trazer informacoes

indesejaveis ou mesmo incorretas.

Os valores obtidos das taxas de reconhecimentos e do EER%, estao em conformidade

com trabalhos similares para identificacao de um locutor para um texto independente

do pronunciado em enunciados de curta duracao (HAMILCI; ERTAS, 2012) e (ARNAB;

SAHIDULLAH; SAHA, 2017).

Algumas propostas de melhoria do metodo de replicacao para reconhecimento do

locutor podem ser adicionadas, como por exemplo uma previa separacao de grupos com

valores similares do pitch (voz feminina e masculina), evitando desse modo a comparacao

com todo o banco de dados. Outra possibilidade seria a composicao de pesos entre os tres

extratores em conjunto com o nıvel de escolha(rank) de cada extrator, formando assim

uma matriz de reconhecimento, essas melhorias de performance seriam elaboradas atraves

de um sistema especıfico.

Tecnicas como coeficientes cespstral Mel-Frequency (MFCC) , PMCC (Coeficientes

Cepstrais Power-Normalizados) , RASTA PLP , PEFAC entre outros, podem refletir veto-

res de ordem N, mais suscetıveis ao ruıdo e de melhor performance. Classificadores como

GMM-UBM , i-vector e JFA trabalhando em conjunto com Redes Neurais profundas (

DEP-Learning), que podem trabalhar com hiperplanos tem sido o estado-da-arte em mo-

delos de identificacao do locutor para texto independente com enunciados de curto tempo

de duracao (KALTAKCHI et al., 2016) (HONG.SU et al., 2016) (NAYANA; MATHEWA;

THOMASA, 2017) (SNYDER et al., 2018), sendo esse um desafio para futuros trabalhos

de pesquisa na area de identificacao de locutor.

Os resultados obtidos para os algoritmos propostos (CEPSTRAL , SHR e MFFT)

apresentam valores semelhantes e dentro do escopo definido.

Sua performance no modelo continuo de gravacao demostra grande potencial na iden-

tificacao do locutor, devido ao numero maior de amostras na fase de teste obtidos no

tempo de curta duracao. Portanto o algoritmo proposto de biometria de voz baseado na

replicacao do pitch para enunciados de curta duracao em um sistema fechado e indepen-

dente do texto pronunciado tem um grande potencial de trabalho.

5 TRABALHOS PUBLICADOS

Publicacao: International Journal for Inovation Education and Research

ONLINE: ISSN:2411-2933 PRINT: ISNN: 2411-3123

Tıtulo: Voice Biometrics Based on Pitch Replication

Autores: L.C.Moreno and P.B.Lopes

DOI: https://doi.org/10.31686/ijier.Vol6.Iss10.1201

Paginas.351-358 - Vol 6 No 10 2018 de 31/10/2018

Fator de Impacto: 2015 : 4.565

REFERENCIAS BIBLIOGRAFICAS

ANANTHAN, S. N.; KUMARI, R. S. Language and Text-Independent Speaker

Identification Systems Using GMM. India: Department of Eletronics and Communication

Engineering Mepco Schlenk Engineering College, 2013.

ARNAB, P.; SAHIDULLAH, M.; SAHA, G. Speaker verification with short utterances:

a review of challenges, trends and opportunities. [S.l.]: IET Journals The Institution of

Engineering and Technology, 2017.

ATAL, B. Automatic Recognition Of Speaker From Their Voices, Pages 460-474. EUA:

IEEE, 1976.

ATAL, B. S. Automatic Speaker Recognition Based On Picth Contours. Bell telephone

laboratories. USA: Pages 1687-1697 of The Journal of Acoustic Society of America,

vol.52, 1972.

BOERSMA, P. Accurate short-term analysis of the fundamental frequency and the

harmonics-to-noise ratio of a sampled sound. Proceedings, 17 pp. 97-110. EUA: IFA,

BOLLE, R. M. et al. Guide to Biometrics. EUA: Springer, 2004.

CARDOSO, S. et al. Sistema de reconhecimento de comandos de voz utilizando pds e

rna, Anais do XVIII Congresso Brasileiro de Automatica, Mato Grosso. Brasil: Sesame,

CHOU, W.; JUANG, B.-H. Pattern Recognition in Speech and Language Processing.

China: GRC Press, 2003.

CUBUKCU, A. et al. Development of a voice-controlled home automation using zigbee

module, Signal Processing and Communications Applications , pp. 1801 - 1804. USA:

conference, 2015.

DEHAK, R. D. N. et al. Support vector machines versus fast scoring in the low-

dimensional total variability space for speaker verification. EUA: Proceedings of

Interspeech, p. 1559 1562, 2009, 2009.

DRUGMAN, T.; ALWAN., A. Join Robust Voicing Detection and Pict Estimation

Based on Residual Harmonics. Barcelona: Proceedings of the Annual Conference of the

Internacional Speech Communication Association, 2011.

FENG, L. Speaker Recognition Informatics and Mathematical Modelling. Dinamarca:

Technical Univeristy of Demmark, 2004.

FURUI, S. Digital Speech Processing, Synthesis, and Recognition ( second Edition,

Revised and Expanded). Japan: YesDee, 2000.

GONZALEZ, S.; BROOKES, M. PEFAC - A pitch estimation algorithm robust to

high levels of noise. USA: IEEE- Trans. Audio, Speech and Lang. Proc., vol 22

no.2,pp.518-530, 2014.

HAMILCI, C.; ERTAS, F. Investigation of the effect of data duration and speaker gender

on tex-independent speaker recognition. Turkia: Computer and Electrical Engineering,

HASAN, M. R. et al. Speaker Identification using Mel Frequency CEPSTRAL coefficients.

Dhaka: Bangladesh University of Engineering and Technology, 2004.

HEBERT, M. Text-dependent speaker recognition, pp 703-762. [S.l.: s.n.], 2008.

HERMANSKY, H. Perceptual Linear Predictive (PLP. [S.l.]: J.Acoust Soc. AM, vol 87,

no.4 , pp 1738-1752, 1990.

HERMES, D. J. Measurement of Pitch by Subharmonic Summation. Holanda: The

Journal of the Acoustical Society of America Vol,83 No1 pp.257-264, 1988.

HONG.SU et al. Convolutional Neural Network for Robust Pitch Determination. China:

Department of Computer Science, Inner Mongolia Univesity, Hohhot, China, 2016.

HOSSAIN, N. Speaker Identification from Extrated Features of Selective Energized Voice

Signal. India: Department of Conputer Sciencie and Engineering Bangladesh University

of Engineering and Technology Dhaka 1000, Bangladesh, 2018.

ISO24741. Information technology – Biometrics. USA: ISO/IEC JTC 1/SC 37 Biometrics,

J.J.DUBNOWSKI. Real-time digital hardware pitch detector,vol. ASSP-24, pp. 2-8,.

EUA: IEEE, 1976.

KALTAKCHI, M. T. S. A. et al. Study in Fusion Strategies and Exploiting the

Combination of MFCC and PMCC features for Robust Biometric Speaker Identification.

India: 4th International Workshop on Biometric and Forensics(JWBF), 2016.

KINNUNEM, T.; LI, H. An overview of text-independent speaker recognition from

features to supervectors, Speech Commun 52(1) , pp 12-40. [S.l.: s.n.], 2010.

KOO, Y.-M. et al. An intelligent motion control of two wheel driving robot based voice

recognition, Control, Automation and Systems (ICCAS)-14th International Conference

on, Seoul,South Korea. Korea: Conference, 2014.

LIU, S.; SILVERMAN, M. A Practical Guide to Biometric Security Technology. USA:

IEEE, 2001.

MAGALHAES, P. S. Biometria e autenticacao. Portugal: Universidade do Minho,

Guimaraes, https://repositorium.sdum.uminho.pt/bitstream/1822/2184/1/capsi.pdf,

MARKEL, J. D. The SIFT algorithm for fundamental frequency estimation,vol. AU-20,

pp.367-377,. EUA: IEEE, 1972.

MILLER, N. J. Pitch detection by data reduction,vol. ASSP-23, pp. 72-79. EUA: IEEE,

NAYANA, P.; MATHEWA, D.; THOMASA, A. Comparation of Text Independent

Speaker Identification Systems using GMM and i-Vector Methods. India: International

Conference on Advances in Computing e Communications, ICACC-2017, 2017.

NAZAR, M. N. Speaker Identification Using Cepstral Analysis. USA: IEEE, 2002.

NIST-SRE. Communications Technology Laboratory (CTL) - https://www.nist.gov/about-

nist. EUA: U.S. Department of Commerce, 2010.

OLIVE, J. Automatic Format Tracking by a Newton Raphson Technique, Pages 661-670.

EUA: The Jornal of the Acoustic Society of America, vol.50, 1971.

POODAR, A.; SAHIDULLAH, M.; SAHA, G. Performance comparison of speaker

recognition systemsin presence of duration variability , pp.1-6. [S.l.]: IEEE INDICON,

PRAAT. Plataforma Praat - http://www.fon.hum.uva.nl/praat/. Holanda: Universidade

de Amsterda, 2017.

RABINER, L. Center for Advanced Information Processing (CAIP) -

http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/. USA: Site, 2010.

RABINER, L. et al. A comparative performance study of several pitch detection

algorithms,. EUA: IEEE, 1976.

RABINER, L.; JUANG, B.-H. Fundamentals Of Speech Recognition. Prentice-hall. USA:

Englewood Cliffs, 1993.

RABINER, L.; SCHAFER, R. W. Digital Processing of Speech Signals. EUA: Alan

V.Oppenheim, 1978.

ROONEY, E. Nasality in Automatic Speaker Vermcation. Escocia: thesis, University of

Edinburgh, 1990.

ROSS, e. a. M. M. J. Average magnitude difference function pitch extractor, ASSP-22,

pp. 353-362,. EUA: IEEE, 1974.

SALLEH, S. H. S. Aplication of Neural Network for Voice Biometrics. Alemanha: VDM

Verlag, 2011.

SCHAFER, R. W.; RABINER, L. R. System for automatic formant analysis of voiced

speech vol. 47, pp. 634-648,. EUA: IEEE, 1970.

SHAUGHNESSY, D. Speech Communication Human and Machine. USA: Livro, 1987.

SILVA, L. A.; SARAJANE, S. M. P.; CLODIS, B. Introducao a Mineracao de Dados.

Brasil: ELSEVIER, 2016.

SNYDER, D. et al. X-Vectors- Robust DNN Embeddings for speaker recognition. USA:

Center for Language and Speech Processing-Human Language Thechonolog Center of

Excelence - The Johns Hopkins University, 2018.

SUN, X. A pitch determination algorithm based on subharmonic-to-harmonic ratio,

pp.679-679. China: 6th Internacional Conference of Spoken Language Processing, 2000.

SUTHERLAND, A. P. Automatic Speaker Veryication Based On Waveform Pertubation

Analysis. Escocia: thesis, University of Edinburgh, 1989.

TORRES, M.; SANFELIU, A. Pattern Recognition and Applications. Deutche: IOS

Press, 2000.

WEIFENG, L. et al. Feature denoising using joint sparse representation for in-car speech

recognition, Signal Processing Letters. USA: IEEE, 2013.

YEGNANARAYANA, B. et al. Combining evidence from source,suprasegmental and

spectral features for a fixed-text speaker verification system. EUA: IEEE Trans. Speech

Audio Process, 2005.

BIOMETRIA DE VOZ COM BASE NA REPLICAC˘AO DO~...

Documents

Transcript of BIOMETRIA DE VOZ COM BASE NA REPLICAC˘AO DO~...

LA AUTOBIOGRAFÍA: UN MÉTODO PARA INCLUIR LA LECTURA Y LA ...repository.udistrital.edu.co/bitstream/11349/3884/1/CaroRivera... · año 2014 y finalizó ... niños y a las niñas

AGRADECIMIENTOS - bibliotecadigital.univalle.edu.cobibliotecadigital.univalle.edu.co/bitstream/10893/3884/5/CB... · Gestión didáctica del profesor y emergencia del arrastre exploratorio

Anestesia e gestante dependente de crack

D (aDS- c · Vigilancia DepenDiente automática (aDS-b) en colombia1 Vigilância DepenDente automática (aDS-B) na colômBia2 automatic DepenDent SurVeillance (aDS-B) in colomBia3

UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/4309/1/3884..ORRALA AVELINO... · 2.4.2 Tabulación de los datos de la encuesta 32 ... 8 Proforma del

Manejo clínico com o paciente dependente químico - slides

Primera linea 3884 26 08 13

ANÁLISIS DE LA MARGINACIÓN EN LAS PRINCIPALES CIUDADES …ru.iiec.unam.mx/3884/1/111-Moreno-Miguel-Martínez.pdf · sociales en las principales Zonas Metropolitanas y grandes ciudades

DISFUNCIÓN ENDOTELIAL - edu.xunta.gal“N... · - a maior cifra tensional maior dano endotelial. a diabetes glucemias anormais (hemoglobina glicada superior a 7) ... - vía dependente

Briófitas e Pteridófitas Características gerais. esporófito gametófito Briófitas; musgos Totalmente dependente do gametófito.

Salceda de Caselas | - INDICEsalcedadecaselas.gal/wp-content/uploads/2015/01/PONTEem... · 2017. 3. 9. · Contacto: DEPENDENTE/A Publicada: Proxecto Iles 21/01/2015 Empresa: Comercio

TEXTO REFUNDIDO PERSOAL INTERINO Acceso e condicións de ... · de traballo do persoal docente interino e substituto dependente da Consellaría de Educación. Actualización: 10 agosto

FACULTAD DE INGENIERÍA DE SISTEMAS - …bibdigital.epn.edu.ec/bitstream/15000/4218/1/CD-3884.pdf · empresa y su proyección futura (planificación estratégica de la empresa), diagnosticar

COMPLEMENTOS DE MECÂNICA QUÂNTICA PARA ...web.ist.utl.pt/berberan/ESP/complementos de MQ.pdf1 Complementos de Mecânica Quântica 1.1 Equação de Schrödinger dependente do tempo

Disposición 3884 - 15 · 2015. 6. 10. · Ministerio de Salud Secretaría de Políticas, Regulación e Institutos A.N.M.A.T. "2015 - Año Del Bicentenario Del Congreso De Los Pueblos

Estimados concesionarios, · CV, una amplia oferta de transmisiones, ... alcanzando nada más y nada menos que los 3884 kg que pueden ser fácilmente controlados con el galardonado

Estudo sobre a Aplicabilidade do Treinamento de Habilidades Sociais na Terapia Cognitivo-Comportamental do Dependente Químico

6 DISEÑO Y DIMENSIONAMIENTO DE LAS DIFERENTES PIEZASbibing.us.es/proyectos/abreproy/3884/fichero/Memoria%2F6.Diseño+y... · Odontógrafo Grant . Resaltamos que este método es aproximado

Poesía nos noventa Marta Dacosta - PoesiaGalega · cunha distribución ocasional dependente da vontade de quen levaba adiante ese proxecto, e que aínda segue, publicando aos máis

Campaña de análise de Metais no - meteogalicia.gal · Medio Ambiente de Galicia, dependente da Este informe foi realizado polo Laboratorio de Subdirección Xeral de Meteoroloxía