Post on 30-Nov-2020
UNIVERSIDADE PRESBITERIANA MACKENZIEPROGRAMA DE POS-GRADUACAO EM ENGENHARIA
ELETRICA E COMPUTACAO
LUIS CARLOS MORENO
BIOMETRIA DE VOZ COM BASE NA REPLICACAO DO
PITCH
SAO PAULO2018
UNIVERSIDADE PRESBITERIANA MACKENZIEPROGRAMA DE POS-GRADUACAO EM ENGENHARIA
ELETRICA E COMPUTACAO
LUIS CARLOS MORENO
BIOMETRIA DE VOZ COM BASE NA REPLICACAO DO
PITCH
Dissertacao de Mestrado apresentado aoPrograma de Engenharia Eletrica e Computacaoda Universidade Presbiteriana Mackenziecomo parte dos requisitos para a obtencaodo tıtulo de Mestre em Engenharia Eletrica.
Orientador: Prof. Dr. Paulo Batista Lopes
SAO PAULO2018
DEDICATORIA
Dedico este trabalho a minha adoravel e maravilhosa esposa Maria Cristina Rossini, pelasua paciencia e incentivo em todos os momentos do mestrado, sem ela tudo isso nao teriasido possıvel.
AGRADECIMENTOS
A minha adoravel esposa Cristina e meus filhos, pela paciencia e incentivo durantetodas as etapas na realizacao deste trabalho.
Aos meus pais, principalmente ao meu pai Sr.Jayme, por sua perseveranca, deter-minacao e sabedoria.
Ao meu orientador Dr.Prof.Paulo Batista Lopes, pela confianca, disponibilidade eapoio em todas as etapas do trabalho, nao permitindo que em nenhum momento tirasseo foco do objetivo, fornecendo sempre subsıdios e seus conhecimentos para continuidade.
Ao coordenador do Programa de Pos-Graduacao em Engenharia Eletrica e Com-putacao do Mackenzie(PPGEEC), Dr. Prof. Leandro Augusto da Silva, pela confiancadepositada e liberdade.
A Coordenacao de Aperfeicoamento de Pessoal de Nıvel Superior(CAPES) e a Uni-versidade Presbiteriana Mackenzie, pois sem o apoio financeiro da bolsa de estudo naoteria sido possıvel.
A todos os meus professores, porem em especial ao Dr. Prof. Cristiano Akaminepela sua paciencia e objetividade, e a todos os colegas de mestrado, pelos conhecimentoscompartilhados, fundamentais para a realizacao deste trabalho e formacao academica.
RESUMO
Autenticacao e seguranca em sistemas automatizados tornaram-se muito necessarias emnossos dias e muitas tecnicas foram propostas para esse fim. Uma dessas alternativase a biometria na qual as caracterısticas do corpo humano sao usadas para autenticar ousuario do sistema. O objetivo deste trabalho e apresentar um metodo de identificacao,independente do texto pronunciado pelo locutor, com base na replicacao de caracterısticasdo pitch. O pitch e um importante parametro do sinal de voz humana e e usado em umavariedade de aplicativos, incluindo biometria de voz. O metodo proposto de identificacaodo locutor e baseado em segmentos de gravacao com curta tempo de duracao, tres segun-dos para treinamento e tres segundos para a determinacao do mesmo. A partir dessessegmentos, as caracterısticas de pitch sao extraıdas e usadas no metodo proposto de re-plicacao para identificacao do locutor, obtendo-se reducao nos valores de Equal error rate(EER).
Palavras-chave: autenticacao,biometria,pitch,algoritmo,replicacao do pitch.
i
ABSTRACT
Authentication and security in automated systems have become very much necessaryin our days and many techniques have been proposed towards this end. One of thesealternatives is biometrics in which human body characteristics are used to authenticate thesystem user. The objective of this work is to present a method of text independent speakeridentification through the replication of pitch characteristics. Pitch is an important speechfeature and is used in a variety of applications, including voice biometrics. The proposedmethod of speaker identification is based on short records segments of speech, namely,three seconds for training and three seconds for the speaker determination. From thesesegments pitch characteristics are extracted and are used in the proposed method ofreplication for identification of the speaker, resulting in a reduction in the Equal errorrate (EER) values.
Keywords: authentication, biometrics, pitch, algorithm, pitch replication.
i
Sumario
1 INTRODUCAO 14
2 REFERENCIAL TEORICO 17
2.1 Pre-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.1 Remocao do ruıdo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.2 Enquadramento ou Segmentacao . . . . . . . . . . . . . . . . . . . 18
2.1.3 Janelamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Classificacao e analise da fala . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Fisiologia na emissao da voz . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.1 Trato vocal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.2 Pitch ou Frequencia fundamental . . . . . . . . . . . . . . . . . . . 22
2.3.3 Algoritmos de deteccao de pitch . . . . . . . . . . . . . . . . . . . . 23
2.3.4 Problemas na deteccao do pitch . . . . . . . . . . . . . . . . . . . . 25
2.4 Procedimentos de reconhecimento de um locutor . . . . . . . . . . . . . . . 27
2.4.1 Fase 1: Formacao de design e conjuntos de teste . . . . . . . . . . . 28
2.4.2 Fase 2: Limites e grupos de analise . . . . . . . . . . . . . . . . . . 28
2.4.3 Fase 3: Sistema de reconhecimento . . . . . . . . . . . . . . . . . . 29
2.4.4 Fase 4: Validacao da performance . . . . . . . . . . . . . . . . . . . 29
2.5 Autenticacao biometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6 Outras caracterısticas para verificacao do locutor . . . . . . . . . . . . . . 31
2.6.1 Intensidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6.2 Linear coeficientes preditivos (LPC) . . . . . . . . . . . . . . . . . . 32
2.6.3 Cepstral coeficiente(CEPSTRAL) e Mel-frequency cepstral coeffici-ents (MFCC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.4 Tempo de gravacao das amostras . . . . . . . . . . . . . . . . . . . 35
2.6.5 Outros parametros de representacao da fala . . . . . . . . . . . . . 35
2.7 Modelagem, aprendizado e classificacao . . . . . . . . . . . . . . . . . . . . 36
2.7.1 Sistemas de verificacao do locutor . . . . . . . . . . . . . . . . . . . 38
3 METODOLOGIA 39
3.1 Metodologia de analise proposta . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Descricao das fases do projeto e materiais . . . . . . . . . . . . . . . . . . 41
3.2.1 Analise da gravacao do locutor para obtencao do pitch . . . . . . . 42
3.2.2 Base de gravacao utilizada . . . . . . . . . . . . . . . . . . . . . . . 44
3.3 Avaliacao do Sistema Proposto . . . . . . . . . . . . . . . . . . . . . . . . 48
4 CONCLUSAO 54
5 TRABALHOS PUBLICADOS 56
REFERENCIAS BIBLIOGRAFICAS 61
Lista de Figuras
1 Trato Vocal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2 Sinal Vocal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3 Marcador do Pitch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4 Analise de EER - Equal Error Rate . . . . . . . . . . . . . . . . . . . . . . 31
5 Sinal de Voz e Cepstrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6 Diagrama de fluxo para obtencao do MFCC . . . . . . . . . . . . . . . . . 35
7 Variacao do EER x Tempo de teste de gravacao . . . . . . . . . . . . . . . 36
8 Diagrama de Classificao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
9 Diagrama de replicacao proposto . . . . . . . . . . . . . . . . . . . . . . . 41
10 Visualizacao da Plataforma PEVIM . . . . . . . . . . . . . . . . . . . . . . 42
11 Diagrama funcional para identificacao do locutor por classificador . . . . . 43
12 Grafico do valor medio do pitch (em Hz) dos tres extratores e sete gravacoes. 48
13 Grafico EER% utilizando extrator SHR com 200 de replicacao . . . . . . . 52
14 Grafico EER% utilizando extrator SHR com 600 de replicacao . . . . . . . 52
15 Grafico EER% utilizando extrator MFFT com 200 de replicacao . . . . . . 53
16 Grafico EER% utilizando extrator MFFT com 600 de replicacao . . . . . . 53
Lista de Tabelas
1 Tabela dos valores medios de pitch (em Hz) medidos na base de treinamento 46
2 Tabela dos valores medios de pitch (em Hz) medidos das sete gravacoes . . 47
3 Tabela da taxa de reconhecimento,teste parcial 4 x 3. . . . . . . . . . . . . 50
4 Tabela da taxa de reconhecimento, teste total 7 x 2. . . . . . . . . . . . . . 51
Lista de Siglas
AHR Accurate short-term analysis pitch and harmonicsAMDF Average magnetude difference functionASV Sistemas Automaticos de VerificacaoAUTOC Modified autocorrelation method clippingCDS Cosine Distance ScoringCEPSTRAL Cepstrum CoefficientCER Crossover Error RateDARD Data reduction methodDE Distancia EuclidianaEER Equal error rateELSDSR English Language Database for Speaker RecognitionFAR False Acceptance RateFRR False Rejection RateGMM Gaussian Mixture ModelHNN Hidden Markov ModelISO International Organization for StandardizationkNN k nearest meighboorsLHS Log-Harmonic SummationLLR Log Likelihood RatioLPC Linear Predictive CoefficientsMFCC Mel-frequency cepstral coefficientsMFFT Maximum value of Fast Fourier TransformNFC Normalized Correlation FunctionNN Neural NetworkPEFAC A Pitch Estimation Filter robust to high level of noisePEVIM Plataforma de Estudo de Voz Instituto MackenziePIN Personal Identily NumbersPLDA Probabilistic Linear Discriminant AnalysisPLP Perceptual Linear PredicitionPNCC Power-Normalized Cepstral CoefficientsPROC Parallel processing methodRASTA Relative Spectral Perceptual Linear PredicitionSHR Subharmonic-to-Harmonic ratioSI Speaker IdentificationSIFT Simplified inverse filtering techniqueSRH Summation of Residual HarmonicSV Speaker VerificationSVM Support Vector MachineTD Texto DependenteTI Texto IndependenteVQ Vector QuantizationZCR Zero-crossing rate
1 INTRODUCAO
O objetivo desse trabalho e propor e desenvolver um metodo de reconhecimento de
um locutor com base nas caracterısticas vocais, utilizando-se para isso o Pitch, com tex-
tos pronunciados independentes e de curta duracao, tendo aplicabilidade em sistemas
biometricos na identificacao e reconhecimento do locutor.
Um sistema de reconhecimento de voz deve identificar o locutor baseado nas emissoes
sonoras vocais (palavras ou frases) emitidas por uma pessoa , transformando-as em
variaveis segmentadas no tempo, denominadas de caracterısticas. Os sinais estao dire-
tamente associadas as propriedades fisiologicas do locutor (RABINER, 2010) que se dife-
renciam pelo tamanho e formato do trato vocal, boca ,cavidade nasal, etc. Acrescenta-se a
isso aspectos de sotaque involuntario , campo lexico de palavras , mudancas involuntarias
de parametros acusticos, etc , tornando a identificacao do locutor uma tarefa bastante
complexa.
Sistemas de reconhecimento de locutor podem ser divididos em dois modelos: iden-
tificacao de locutor (conhecido como speaker identification - SI) e verificacao de locutor
(speaker verification - SV). O SI tem como proposito identificar um locutor a partir de
um banco de dados de gravacoes de vozes de diversas pessoas, enquanto SV tem como
objetivo a autenticacao de uma pessoa de forma comparativa com uma amostra previ-
amente gravada (FURUI, 2000). Sistemas automaticos de verificacao de locutor(ASV -
Automatic speaker verification) sao categorizados em texto-dependente (TD) (HEBERT,
2008) e texto-independente (TI) (KINNUNEM; LI, 2010).
Texto-dependente (TD) e quando o reconhecimento do locutor e feito por meio de um
enunciado previamente treinado em uma base gravada e o mesmo enunciado e pronunciado
na fase de teste para comparacao e execucao do reconhecimento , por exemplo: ”abre-te
sesamo”, Texto-independente (TI) e quando o texto pronunciado na fase de treinamento
e teste sao diferentes. Sistemas de TI sao mais complexos, exigem a extracao de carac-
terısticas mais complexas do locutor, bem como modelos de identificacao e classificacao
mais robustos (SALLEH, 2011).
O estado da arte de Sistemas Automaticos de Verificacao (ASV) demostra consi-
deravel nıvel de acuracidade de verificacao do locutor quando estao disponıveis gravacoes
14
com longo tempo de duracao em bancos de dados. Nao existe uma definicao padrao
para gravacoes de curto tempo de duracao para sistemas ASV. Contudo e observado
que a grande maioria das publicacoes cientıficas considera segmentos de 5 a 10 segun-
dos para identificacao do locutor como tempos curtos para validacao de experimentos e
analises (ARNAB; SAHIDULLAH; SAHA, 2017). O metodo proposto utiliza um tempo
de gravacao do locutor para reconhecimento de tres segundos, tanto para a base de trei-
namento como para a base de teste.
Em revisoes feitas por (SUTHERLAND, 1989) e (ROONEY, 1990) ,foi provado que
o contorno do Pitch pode ser usado para reconhecimento do locutor. Estudos tem in-
dicado que o pitch por si proprio e um parametro de baixa performance de reconheci-
mento, porem combinado com outras caracterısticas tais como intensidade , frequencias
harmonicas , coeficientes lineares preditivos entre outros, resultara em melhorias de de-
sempenho (SALLEH, 2011).
Uma questao importante e a eficiencia da modelagem e do classificador utilizado na
busca e no reconhecimento do locutor. Convencionalmente utiliza-se tecnicas de Hidden
Markov Model (HMM) ou Gaussian Mixture Model (GMM) (ANANTHAN; KUMARI,
2013). Redes Neurais tem sido utilizada como um metodo alternativo e atual para resolver
problemas de reconhecimento, numa forma hibrida de trabalho. Para esse projeto estara
sendo utilizada a tecnica k-NN (k nearest neighboors) (SILVA; SARAJANE; CLODIS,
2016) , um classificador simples de ser implementado e de facil compreensao , que sera
aplicado no metodo aqui proposto.
O estagio final envolve a classificacao e teste das informacoes obtidas. Sao com-
putadas pontuacoes para cada locutor de modo a se obter uma classificacao dos me-
lhores ranqueados , seja de forma ascendente ou descendente dos valores, e dispor em
uma ordem hierarquica. Extistem diferentes metodos para pontuacao e classificacao,
tais como LLR (Log Likelihood Ratio),CDS (Cosine Distance Scoring),SVM(Support Vec-
tor Machine),PLDA (Probabilistic Linear Discriminant Analysis),etc (DEHAK et al.,
2009)(NAYANA; MATHEWA; THOMASA, 2017). Para esse trabalho foi utilizado o
metodo sequencial de escolha atraves do algoritmo K-Nearest Neighbors(k-NN).
O desafio e utilizar gravacoes com sentencas de curto tempo de duracao , tres se-
gundos para cada enunciado de gravacao de cada locutor na fase de treinamento e tres
15
segundos para a fase de teste, respectivamente , aplicar o metodo proposto de replicacao
das caracterısticas do Pitch ,fazer comparacoes atraves do metodo de classificacao k-NN,
de modo a fazer a identificacao do locutor, utilizando-se para isso textos independentes.
O crescimento das pesquisas em reconhecimento de padroes demonstra o interesse
em melhorar a eficiencia bem como a simplificacao de sistemas baseados nesta area.
Isto e devido as aplicacoes praticas que sao motivadas pela necessidade das pessoas em
comunicar-se com maquinas computacionais por meio de uma linguagem natural e o inte-
resse na ideia de projetar e construir maquinas que possam realizar algumas tarefas com
habilidades comparadas ao ser humano (TORRES; SANFELIU, 2000). A proposta desse
trabalho nao tem como objeto o reconhecimento de palavras e sim o reconhecimento de
locutores.
Entre estas aplicacoes, tem-se os sistemas baseados no reconhecimento de padroes de
sinais de voz e de locutores. Estes sistemas trazem benefıcios em muitos ambitos, tais
como telefonia, em que os clientes sao direcionados atraves de comandos e reconhecimento
de voz (CARDOSO et al., 2010); na industria automotiva por meio da ativacao de dis-
positivos no interior do veıculo (WEIFENG et al., 2013); nos sistemas de computacao
pelo uso de programas utilitarios, sistemas de autenticacao bancaria por reconhecimento
de voz, aplicacoes em robotica (KOO et al., 2014), automacao residencial e hospitalar
(CUBUKCU et al., 2015), etc. Sao inumeras as possibilidades de aplicacoes com sistemas
de reconhecimento da fala ou do locutor.
A motivacao para escolha da linha de pesquisa deste trabalho , surgiu durante anos de
experiencia profissional do autor de 1986 a 2016 nas empresas de equipamentos e servicos
de Telecomunicacoes. Nesse perıodo o autor foi responsavel por trazer e homologar novos
produtos e servicos para call centers e sistemas de telefonia.
O presente documento faz abordagem de todo processo da emissao de voz, suas ca-
racterısticas tecnicas e fisiologicas. Em seguida sao apresentados quais os procedimentos
que devem ser adotados para reconhecimento de um locutor, bem como os principais
parametros de medicao e suas caracterısticas de validacao. Serao abordados alguns algo-
ritmos de extracao , metodos de modelagem e classificacao, por fim sera apresentado o
modelo proposto de replicacao de pitch e resultados e avaliacoes obtidos.
16
2 REFERENCIAL TEORICO
A palavra biometria vem da juncao das palavras gregas Bios (que significa vida) e
metron (que significa medida). Na area tecnologica, biometria indica as caracterısticas
fısicas, biologicas e unicas dos seres humanos podendo ser usada em mecanismos de iden-
tificacao e autenticacao (FURUI, 2000). O mecanismo de biometria apresenta aumento
na seguranca de sistemas de autenticacao se comparado com os tradicionais como: senha
de PINs (Personal Identity Numbers), cartao magnetico e chave eletronica, entre outras
(LIU; SILVERMAN, 2001).
A biometria e o recurso que possibilita identificar pessoas por suas caracterısticas
fısicas ou comportamentais, como por exemplo, retina, ıris, impressao digital , geometria
da mao , face ,assinatura, impressao vocal (voz) , DNA , odor , entre outras que permitem
definir a sua individualidade (BOLLE et al., 2004).
A biometria da voz e uma das formas biologicas de reconhecimento. Com uma simples
gravacao e possıvel fazer a analise das caracterısticas unicas da voz para fins de auten-
ticacao, sendo uma arma tecnologica na guerra contra operacoes fraudulentas em diversas
areas, especialmente quando levada em conta sua caracterıstica com relacionamento com
usuarios remotos. E um metodo nao invasivo e de nao necessita de dispositivos externos
complicados para coleta dos dados (FURUI, 2000).
O processo de biometria contempla basicamente duas variaveis que se alteram cons-
tantemente , uma delas respeito as caracterısticas extraıdas do sinal de voz e a outra
refere-se ao meio ou metodo utilizado para se obter a informacao , denominado de ca-
nal. No caso da biometria de voz , as pequenas variacoes da voz , seja na amplitude ,
cadencia , pronuncia, etc , podem ocasionar alteracoes nos parametros extraıdos para sua
comparacao. Quanto as pertubacoes do meio e do metodo utilizado para a gravacao ,
como ambientes ruidosos , linha telefonica , equipamentos do meio de transmissao entre
outros, elas afetam diretamente a informacao e suas caracterısticas originais (RABINER,
2010)(SALLEH, 2011).
17
2.1 Pre-processamento
O pre-processamento do sinal de voz envolve o segregamento do enunciado do locutor
em tres tipos de segmentos, capturados durante o processo de gravacao:
i. Os segmentos uteis, nos quais esta a energia considerada audıvel e util dos
fonemas considerados vogais e utilizados nas fases seguintes do pre-processamento;
ii. Os segmentos de silencio que referem-se a pausas na elocucao e devem ser
removidos por nao serem uteis;
iii. Os segmentos com fonemas nao-vogais (tambem chamada de unvoiced) que
apesar de fazerem parte do enunciado , nao trazem consigo informacao util de voz
e devem ser removidas.
A extracao da parte util do enunciado e importante pois permite substancial reducao
na complexidade computacional dos proximos estagios descritos abaixo (FURUI, 2000).
2.1.1 Remocao do ruıdo
Ruıdos sao interferencias indesejaveis os quais tendem a degradar a performance dos
sistemas de identificacao do locutor. A remocao do ruıdo e feita atraves de uma tecnica
de decomposicao do sinal (RABINER, 2010). Os ruıdos na comunicacao nada mais sao
qualquer elementos que interfiram no processo da transmissao de uma mensagem de um
emissor para um receptor. Os ruıdos podem ser resultados de duas fontes: elementos
internos, sao os ruıdos gerados pelos componentes eletronicos responsaveis pela gravacao
ou mesmo transmissao e elementos externos, como ruıdo cosmico de fundo, ruıdo das
estrelas (incluindo o Sol), eletricidade estatica, raios, ignicao de motores, etc. Ambos
possuem o mesmo efeito que e limitar o desempenho do sistema de comunicacao; distorcer
e degradar a informacao recebida (FURUI, 2000).
2.1.2 Enquadramento ou Segmentacao
O enquadramento ou segmentacao e uma tecnica que limita a menor regiao da voz
gravada util. O estado-da-arte em sistemas ASV permite utilizar tres tipos de tecnicas
de segmentacao: sub-segmento , segmento e supra-segmento. Sinal de voz analisado com
18
enquadramento de tamanho e limites de deslocamento entre 3-5 ms sao conhecidos como
analises em sub-segmento. Estudos revelam que sistemas para identificacao do locu-
tor que utilizam analises de sub-segmento contem consideravel e especificas informacoes
do locutor(YEGNANARAYANA et al., 2005). No caso de analises com segmento , o
enquadramento e o deslocamento estao no limite de 10-30 ms para extracao das carac-
terısticas , principalmente referente ao trato vocal. As informacoes obtidas e origina-
das do trato-vocal podem ser consideradas quase-estacionaria para analises e processa-
mento(RABINER; SCHAFER, 1978)(SHAUGHNESSY, 1987). Sistemas de extracao das
caracterısticas supra-segmento , onde a voz e segmentada usando tamanhos de segmentos
da odem de 100-300 ms, incorporam caracterısticas do comportamento do trato vocal
no locutor , tais como duracao da palavra , velocidade da fala , acentuacao , etc. Es-
tudo demonstra que caracterısticas supra-segmento podem ser utilizadas com eficiencia
em sistemas para reconhecimento do locutor (ATAL, 1972)(YEGNANARAYANA et al.,
2005).
2.1.3 Janelamento
Janelamento e uma forma de prover uma amortizacao espectral nos quadros elabora-
dos na fase de enquadramento. E feito em cada quadro (em torno de 20 a 30ms) de modo
que o sinal fique proximo a zero no inicio e final de cada quadro. A tecnica de janela de
Hamming e usada pois permite uma larga aba de captura e com as bordas amortizadas e
de pequena dimensao (RABINER; SCHAFER, 1978)(SHAUGHNESSY, 1987).
2.2 Classificacao e analise da fala
A autenticacao biometrica pelo reconhecimento da voz e baseada no fato de que as
caracterısticas fısicas do indivıduo sao unicas. O aspecto fısico mais relevante e a forma do
trato vocal, que e composto por todos os orgaos e cavidades que participam da producao
da fala (MAGALHAES, 2001).
A identificacao do locutor e a procura de uma amostra da voz representada por
parametros de um modelo matematico baseado na fisiologia humana em um banco de
dados. Existem diversas metodologias e algoritmos de procura, cada um com seu nıvel de
19
acuracidade, complexidade e robustez. Essa fase consiste em tomar a decisao do potencial
de uma determinada amostra analisada e verificar se a mesma consta ou nao em um banco
de dados (SALLEH, 2011).
Os nıveis de assertividade caracterısticos da biometria de voz dependem muito dos
algoritmos e da metodologia adotados. Suas caracterısticas originais poderao estar bas-
tante desiguais ou mesmo corrompidas como por exemplo: um resfriado, ruıdo externo em
excesso, estado emocional (choro) , formas de imitacao de voz , sintetizadores eletronicos
, entonacao, etc. Nesse caso o nıvel de percepcao do sistema ou mesmo dos resultados
obtidos pelo algoritmo sao imprevisıveis, com grande chance de erro no processo de clas-
sificacao e identificacao (FURUI, 2000). Ambientes controlados para formacao de banco
de dados para treinamento sao sempre desejados, mas deve-se analisar qual modelo de
trabalho e sistema se deseja implementar. A inclusao de gravacoes no banco de dados de
treinamento , principalmente para sistemas de identificacao do locutor (SI) , que conte-
nham caracterısticas de voz fora do padrao original , dependendo do objetivo proposto,
podem ser consideradas como colaborativas em um processo de reconhecimento de um
locutor (SALLEH, 2011).
O sinal de fala e considerado quase-periodico devido a variacoes da vibracao das cordas
vocais e do formato do trato vocal. Essas variacoes, inicialmente, nao sao controladas pelo
locutor e nao sao importantes para a inteligibilidade numa forma geral. A partir da desco-
berta dessa quase-periodicidade determinada em milissegundos (em torno de 20 a 30ms)
e do uso de tecnicas em processamento digital de sinal , houve um crescente aumento nas
pesquisas e desenvolvimentos da biometria de voz e do estudo da fala (SHAUGHNESSY,
1987). A emissao do sons da fala podem ser resumidamente classificadas em tres, de
acordo com seu modo de excitacao.
i. Os sons pronunciados e produzidos do ar forcado pelos pulmoes que atravessam
a traqueia e passam pelas cordas vocais, que inicialmente tensionadas vibram
numa determinada oscilacao, produzindo assim pulsos quase-periodico de ar que
excita todo o trato vocal . Podemos classificar as vogais e algumas consoantes
com esse formato , esse tipo de excitacao produz informacao de frequencias uteis
para uma possıvel classificacao de voz(RABINER; SCHAFER, 1978).
ii. As consoantes que tem caracterısticas fricativas, sao conhecidas como unvoice ,
20
pois apesar de possuırem energia e amplitude nao apresentam nenhuma ou muito
pouca informacao para uma classificacao em frequencia. Podemos enumerar as
consoantes tipo /s/, /f/ e /z/. A producao dessas consoantes fricativas na sua
grande maioria sao independentes da corda vocal, sao produzidas a partir de
localizadas contracoes e formato do trato vocal(FURUI, 2000).
iii. As denominadas explosivas, como o /p/ , /t/ e /k/. Sao formadas a partir
de sons que ocorrem impulsivamente da liberacao rapida com alta-pressao de
ar produzida por um processo de retencao do fluxo de ar no trato vocal, sendo
basicamente controlados pela lingua e pelos labios. Esse tipo de excitacao tambem
pode produzir informacao de frequencias uteis para uma possıvel classificacao de
voz (FURUI, 2000).
2.3 Fisiologia na emissao da voz
O processo de producao da fala envolve basicamente tres sub-processos: geracao ,
articulacao e radiacao. O conjunto de elementos fisiologicos para a producao da fala tem
caracterısticas unicas em cada ser humano. Assim cada pessoa produz um sinal de voz
com propriedades acusticas distintas. Esse conjunto tem suas caracterısticas fisiologicas
do trato vocal desenvolvidas ao longo da vida e estao diretamente relacionadas ao meio
onde vive, seus habitos e maneiras de falar. A producao de uma onda da voz e biologi-
camente produzida por uma sequencia de eventos, que iniciam do ar vindo dos pulmoes ,
passam pelas pregas vocais ( conhecidas como cordas vocais ) posicionadas na laringe e
sao modificadas pela ressonancia de um tubo formado por todo o trato vocal (RABINER;
JUANG, 1993). Na Figura 1 , sao apresentados os principais elementos fisiologicos para
a producao da fala.
2.3.1 Trato vocal
O complexo tubular composto de musculos e tecido osseo (incluindo as cartilagens)
sao os principais responsaveis pela producao dos diferentes sons caracterısticos da lıngua
falada ( ex: ingles, portugues, frances, etc.). Cada componente fisiologico do trato vocal
possui sua caracterıstica especıfica e peculiar na producao da fala que se altera no decor-
21
Figura 1: Trato Vocal
(FURUI, 2000)
rer de uma conversa. Podemos destacar 11 componentes fisiologicos do trato vocal que
trabalham para essa emissao: labios superior e inferior, dentes superiores e inferiores ,
lıngua , ceu da boca , faringe , cavidade nasal , laringe , traqueia , pulmoes , musculatura
respiratoria e a principal , as cordas vocais (SHAUGHNESSY, 1987).
A quase semi-periodicidade apresentadas durante uma vogal , o grande espectro de
frequencia contido em diferentes sons e a tendencia do sinal gradualmente mudar de
padrao entre sons demostram que a fala nao e uma sequencia de sons em pronto estado
do tipo pre-formatada ; mudancas abruptas ocorrem de um instante a outro. Mesmo em
caso de transicoes abruptas, pequenos sinais frequentemente ocorrem antes e depois da
descontinuidade. Mudancas no formato do sinal da fala, gradual ou abrupta, resultam
em um movimento do trato vocal e suas articulacoes, com raros casos nos quais a mesma
permanece em uma posicao fixa por mais de 40 ms (ATAL, 1972).
2.3.2 Pitch ou Frequencia fundamental
A voz e produzida quando as cordas vocais sao tensionadas e vibram com a pressao do
ar, forcando a glote a se abrir (glote e uma estrutura localizada na laringe que tem a funcao
de controlar o fluxo de ar dos pulmoes). A frequencia de trabalho das cordas vocais, devido
a essa pressao de ar impulsionada pelos pulmoes, e definida como Pitch, ou frequencia
fundamental. Essa frequencia varia de pessoa para pessoa e depende exclusivamente da
22
dimensao da corda vocal, sua flexibilidade, sua qualidade fisiologica e de como a mesma
se encontra fisicamente estruturada na laringe. O valor do Pitch para um homem adulto
pode variar de 50 Hz ate 250 Hz e para mulheres e criancas podendo chegar a valores de
500 Hz (RABINER; JUANG, 1993). Um locutor pode controlar o Pitch do som que esta
sendo produzido, pois o sistema e todo apoiado por musculos e cartilagens que podem
ser alteradas atraves de contracoes musculares. A diferenca dos valores da frequencia
fundamental entre diferentes locutores e grupos de locutores tem sido vista como um
grande potencial para reconhecimento automatico de voz (SALLEH, 2011).
No momento inicial da emissao de uma palavra (seja uma vogal ou nao) , acontece a
primeira explosao de energia fornecida por todo sistema do trato vocal para emissao de
determinado som. Essa primeira explosao energia contem em geral uma frequencia F0
que e definida como Pitch, seguida de outras frequencias F1 , F2 e F3 de menor potencia,
conhecidas como frequencias formats , ou tambem chamadas de harmonicas (RABINER;
JUANG, 1993).
As frequencias que determinam a inteligibilidade do que e ouvido pelo ser humano
esta no limite de 20 Hz ate 4000 Hz. Todavia a frequencia produzida pelo ser humano
pode ser mais alta do que esse valor (podendo chegar ate 20.000 Hz), principalmente para
as criancas e mulheres (NAZAR, 2002).
A Figura 2 sao apresentadas as formas de ondas das vogais faladas (em ingles) repe-
tidas por cinco vezes. Note a quase periodicidade caracterıstica da fala de uma vogal e
tambem a sua variacao espectral, vide marcacao F0 , F1 e F2 na figura.
Diversos metodos sofisticados tem sido desenvolvidos para se obter as medidas do
pitch, concebidos de modo a minimizar os erros e maximizar a performance.
2.3.3 Algoritmos de deteccao de pitch
Basicamente , os algoritmos tem como foco principal a deteccao da frequencia funda-
mental (pitch) de um determinado quadro(frame) de voz, separando do mesmo intervalos
de silencio ou fonemas nao vogais. Os algoritmos de deteccao de pitch podem ser divididos
entre (RABINER et al., 1976):
a) Um grupo de algoritmos que usa principalmente as propriedades do domınio
23
Figura 2: Sinal Vocal
(SHAUGHNESSY, 1987)
do tempo do sinal da voz.
b) Um grupo de algoritmos que usa principalmente as propriedades do domınio
da frequencia do sinal da voz.
c) Um grupo de algoritmos hıbridos , que utilizam tanto o domınio do tempo
quanto o da frequencia.
Abaixo sao relacionados alguns algoritmos de deteccao de pitch , cada qual com seu
nıvel de desempenho, robustez e complexidade.
• Normalized Correlation Function(NCF). (ATAL, 1972)
•Modified autocorrelation method clipping (AUTOC). (J.J.DUBNOWSKI, 1976)
• Cepstrum Coefficient (CEPSTRAL). (RABINER, 2010)(FURUI, 2000)
• Simplified inverse filtering technique (SIFT). (MARKEL, 1972)
• Data reduction method (DARD). (MILLER, 1975)
• Parallel processing method (PROC). (SCHAFER; RABINER, 1970)
24
• Average magnetude difference function (AMDF). (ROSS, 1974)
• Log-Harmonic Summation(LHS) (HERMES, 1988)
• Summation of Residual Harmonics(SRH) (DRUGMAN; ALWAN., 2011)
• Subharmonic-to-Harmonic ratio (SHR). (SUN, 2000)
• Accurate short-term analysis pitch and harmonics (AHR). (BOERSMA, 1993)
• Maximum value of Fast Fourier Transform (MFFT)(RABINER, 2010)
• A Pitch Estimation Filter robust to high level of noise (PEFAC) (GONZALEZ;
BROOKES, 2014)
Os algoritmos AUTOC , DARD , PROC e AMDF trabalham no domınio do tempo,
o CEPSTRAL e MFFT no domınio da frequencia e os outros algoritmos SHR , AHR
, LPC entre outros , sao algoritmos hıbridos. Outras tecnicas de obtencao do pitch
podem ser relacionadas,como: Zero-crossing rate(ZCR), Autocorrelation, Phase Space ,
Component Frequency Ratios, Filter-Based Methods, Multi-Resolution Methods, Neural
Networks e Maximum Likelihood Estimators. A proposta deste trabalho nao e estudar ou
mesmo comparar tecnicas de extracao da frequencia fundamental. Foram utilizados tres
algorıtmos para extracao do pitch, o Cepstrum Coefficient (CEPSTRAL) , Subharmonic-
to-Harmonic ratio (SHR) e Maximum value of Fast Fourier Transform (MFFT). A escolha
foi feita com base no grau de complexidade e robustez do extrator, bem como a disponi-
bilidade do programa e seu algoritmo.
2.3.4 Problemas na deteccao do pitch
A medida precisa e confiavel do perıodo da Frequencia Fundamental (pitch) de um
sinal da fala e sua forma de onda e extremamente difıcil por quatro principais razoes
(RABINER et al., 1976).
A primeira razao e que a forma de onda da excitacao glotal nao e uma sequencia
perfeita de pulsos periodicos.
A segunda dificuldade e medir o perıodo do pitch devido a interacao entre o trato
vocal e a excitacao glotica. Em alguns casos, os formantes do trato vocal podem alterar
significativamente a estrutura da forma de onda glotal. Tais interacoes geralmente sao
mais prejudiciais na deteccao de pitch durante a rapida movimentacao dos articuladores,
enquanto os formantes estao tambem sendo mudados rapidamente.
25
Um terceiro problema para medicao confiavel do pitch e a dificuldade em se definir
o inıcio exato e final de cada segmentos da fala. A escolha dos locais exatos de inıcio e
fim do perıodo do pitch sao muitas vezes bastante arbitrarios. A falta de tal consistencia
podem levar a falsas estimativas de perıodo de do pitch. A figura 3 sao apresentados duas
possıveis escolhas para definir um marcador de pitch diretamente com base em medicoes
de forma de onda. As duas medicoes de forma de onda mostradas podem (e muitas vezes
irao) dar valores ligeiramente diferentes de pitch. As discrepancias do perıodo do pitch sao
devidas nao apenas a quase-periodicidade da forma de onda da fala, mas tambem pelo fato
de que FO (frequencia fundamental) ser sensıvel a estrutura dos formantes(harmonicas) ,
bem como o cruzamento por zero (zero crossing) ao ruıdo e nıvel DC da forma de onda
(RABINER et al., 1976).
Figura 3: Marcador do Pitch
(RABINER et al., 1976)
Uma quarta dificuldade na deteccao de pitch e distinguir entre um quadro de silencio
e uma fala de voz com baixa intensidade. Em muitos casos transicoes de segmentos entre
silencio e de baixa intensidade sao muito sutis e portanto, sao extremamente difıceis de
identificar.
Alem das dificuldades discutidas acima para determinacao do perıodo de pitch , com-
plicacoes adicionais ocorrem quando se esta considerando a transmissao de voz atraves
de um sistema de telefonia, os efeitos incluem filtragem linear, processamento nao linear
e adicao de ruıdo ao sinal da fala.
No que diz respeito a filtragem linear, o sistema de telefonia atua como um filtro
passa-faixa (banda passante aproximadamente de 200 Hz a 3200 Hz) que pode atenuar
significativamente o sinal da frequencia fundamental ( pitch ) e suas harmonicas, dificul-
tando desse modo a deteccao do valor do pitch.
Contribuicoes nao lineares do sistema de telefonia , dependendo muito do sistema
26
especıfico de transmissao utilizado, podem incluir:
1) Distorcao de fase.
2) Atenuacao da amplitude do sinal da fala.
3) Interferencia indesejada entre duas ou mais mensagens.
4) Distorcao da voz devido a intensidade da gravacao.
Deve-se notar que nao se espera que todos os itens acima ocorram simultaneamente.
Assim, o efeito geral da telefonia na estrutura da onda da fala e de tal forma que torna-se
mais difıcil de se detectar o valor do pitch (RABINER et al., 1976).
2.4 Procedimentos de reconhecimento de um locutor
Podemos resumir em dois procedimentos eficientes do reconhecimento de voz de um
locutor (ATAL, 1972).
Primeiro , pode-se fazer o reconhecimento de voz do locutor por inspecao visual
dos dados e distinguir o conjunto das diferencas do pitch e das frequencias forman-
tes(harmonicas) de um locutor comparado com outro, por meio da analise espectrografica
da voz. E um recurso interessante, porem pouco utilizado, que permite entender como e
possıvel fazer uma classificacao de um locutor desconhecido. Esse procedimento foi uti-
lizado por varios anos, sendo bastante pesquisado em algumas areas de estudo, como os
patologicos(ATAL, 1972).
No segundo e mais utilizado, a decisao e feita em computacao por meio de modelos de
classificacao, seja por metodos estatısticos ou atraves de algoritmos de pesquisa ,utilizando
ferramentas especificas tais como: Hidden Markov Model (HMM),Gaussian Mixture Mo-
del (GMM) , Vector Quantization(VQ), Rede Neural (NN), k-Nearest Neighbors(k-NN)
entre outras(ATAL, 1972)(FENG, 2004)(HONG.SU et al., 2016).
Novos metodos de extracao e classificacao tem sido cada vez mais estudados na atua-
lidade em pesquisas de reconhecimento do locutor . A crescente utilizacao de tecnicas de
processamento digital de sinais, o aumento da capacidade computacional em conjunto com
a disponibilizacao de ferramentas de softwares, permitem cada vez mais a criacao de novos
algoritmos de procura e descobertas do locutor(NAZAR, 2002)(SALLEH, 2011)(SNYDER
27
et al., 2018).
Independente do modelo adotado para classificacao ou mesmo do recurso utilizado,
e necessario que seja executado uma sequencia de eventos tecnicos de levantamentos ,
definicoes de variaveis e analise de resultados , para que o procedimento de reconhecimento
de voz de um locutor seja efetivo. A seguir e apresentado quatro fases minimas que devem
ser processadas para elaboracao de um sistema de Reconhecimento de voz de um locutor
(ATAL, 1972)(SALLEH, 2011).
2.4.1 Fase 1: Formacao de design e conjuntos de teste
Nesta fase determina-se a quantidade de enunciados que serao gravados por locutor
, ambiente de gravacao (acustica, ruıdos, interferencias, etc) , equipamentos utilizados,
quantas vezes cada enunciado sera repetido por locutor , tempo de gravacao, tamanho do
arquivo gravado para base de dados , frequencia de amostragem e a quantidade de bits
utilizados para projetos que utilizam processamento digital e tipo de arquivo que sera
armazenado (ex: mp3, wav, ogg, wma, m4a, amr, dts, entre outros). E desejavel que
a formatacao desse design do conjunto de testes seja flexıveis durante todas as fases do
trabalho, para permitir alterar suas variaveis e medir sua eficiencia, de modo que seja
possıvel a comparacao com outros modelos(SALLEH, 2011).
2.4.2 Fase 2: Limites e grupos de analise
Considere uma representacao N-dimensional de enunciados (contornos de pitch) ,
cada enunciado sendo representado por um ponto com N-dimensoes no espaco euclidiano
, ou mesmo , em um sistema de processamento digital de sinal com analise de inumeros
quadros de tamanho de milissegundos. Ambos os casos , os enuniados formarao uma base
de analise bastante vasta que podera inviabilizar o projeto de reconhecimento do locutor
ou mesmo reduzir consideravelmente sua eficiencia no processamento e analise. Cada
modelo de procura possui suas caracterısticas de limitacao ou mesmo de agrupamento,
porem alguns valores devem ser estipulados inicialmente, como: limites de frequencia de
voz que se deseja analisar ( ex: ate 4Khz ) , limite do tempo que se considera como
silencio (sem voz) da fala , valor mınimo da amplitude do sinal que deve ser considerado
28
para analise de modo a eliminar ruıdos de baixa intensidade e a criacao de grupos de
analise,etc. Isso permite uma analise mais direta do reconhecimento de voz do locutor
(SALLEH, 2011).
2.4.3 Fase 3: Sistema de reconhecimento
Nesta fase, e importante modelar uma estrutura de medicao padronizada em todas
as fases do reconhecimento do interlocultor. A formatacao de uma base treinada deve
obedecer o mesmo padrao do modelo em simulacao, do sistema em analise. Todas as
ferramentas utilizadas na fase de pre-processamento devem dispor de parametros bem de-
finidos de modo a nao existir incompatibilidade de reconhecimento. Nao necessariamente
um arquivo obtido de um projeto de reconhecimento do locutor servira em outro sistema,
pois deve haver compatibilidade de processamento , analise e formatacao de arquivo. E
importante que o sistema consiga carregar padroes populares de arquivos de audios ( ex:
wav) e consiga compatibilizar com o sistema para analise (SALLEH, 2011).
2.4.4 Fase 4: Validacao da performance
Quando se trabalha com sistemas de biometria e seus componentes de medicao, duas
questoes fundamentais sao feitas: Como medir a assertividade do sistema de biometria
proposto ( ou de seus componentes envolvidos)? Como comparar os resultados com dife-
rentes sistemas?
E importante notar que existem documentos elaborados pela International Organiza-
tion for Standardization (ISO) , as normas ISO/IEC 19795-series e ISO / IEC TR 24741:
2018 (ISO24741, 2018) que descrevem um pouco a historia da biometria e varias tecno-
logias biometricas em uso (por exemplo, reconhecimento de impressoes digitais e facial)
, a arquitetura dos sistemas e processos do sistema que permitem validacao e reconheci-
mento automatico usando essas tecnologias. Eles tambem fornecem informacoes sobre a
aplicacao da biometria em varios domınios de negocios, como gerenciamento de fronteiras,
aplicacao da lei e licenciamento de motoristas, consideracoes sociais e de jurisdicao que
normalmente sao levadas em consideracao nos sistemas biometricos e os padroes interna-
cionais que sustentam seu uso. A proposta da verificacao e validacao da performance e
29
informar se dois modelos distintos se comparados, possuem os mesmos resultados. Podem
ser considerados similares se alguns pontos de pesquisa , definidos como limitantes , combi-
nam. Desse modo pode-se determinar sua performance bem como sua validacao(SALLEH,
2011).
Nos modelos de biometria utiliza-se como padrao a taxa denominada de ”Equal Error
Rate(EER)”uma caracterıstica do sistema de seguranca biometrica utilizado para pre-
determinar os valores limite para a taxa de falsa aceitacao e taxa de falsa rejeicao. Quando
as taxas sao iguais, o valor comum e referido como a taxa de erro igual. O valor indica
que a proporcao de falsas aceitacoes e igual a proporcao de falsas rejeicoes. Quanto menor
o valor da taxa de erro, maior a precisao do sistema biometrico. O EER tambem pode
ser referida como Crossover Error Rate(CER) , que e apresentado no item ”Autenticacao
Biometrica”(BOLLE et al., 2004).
2.5 Autenticacao biometrica
O FAR (False Acceptance Rate - Taxa de Falso Positivo) a relacao de autenticar
os impostores, ou seja, e legitimar um usuario, quando na realidade ele e um impostor
(BOLLE et al., 2004). Valores de FAR proximos a 0% representam sistemas com maior
nıvel de seguranca. O FAR e dada pela equacao 1:
FAR = FP/(FP+TN) (1)
O FRR (False Rejection Rate - Taxa de Falso Negativo) e a relacao de nao autenticar
os usuarios genuınos, ou seja, e nao legitimar um usuario, quando na realidade ele e
genuıno (BOLLE et al., 2004). Valores de FRR proximos a 0% representam sistemas com
menor nıvel de seguranca, e dada pela equacao 2:
FRR = FN/(TP+FN) (2)
Sendo:
FP=Falso positivo,
FN=Falso Negativo,
TN=Total verdadeiro Negativo
30
TP=Total verdadeiro Positivo
Os dois fatores sao mutuamente independentes, porem para expressar o equilıbrio
criou-se o EER (Equal Erros Rate), tambem chamado de CER (Crossover Error Rate).
Quanto menor for o valor de EER mais preciso e um sistema biometrico. Na Figura
4, podemos verificar o comportamento do indicador em funcao de FFR e FAR (LIU;
SILVERMAN, 2001) (BOLLE et al., 2004).
Figura 4: Analise de EER - Equal Error Rate
(LIU; SILVERMAN, 2001)
2.6 Outras caracterısticas para verificacao do locutor
Como apresentado, existem diversos metodos para se obter o valor da frequencia
fundamental (pitch). Estudos mostram que o mesmo e uma caracterıstica de baixa per-
formance em sistemas de reconhecimento do locutor, pois seus algoritmos de extracao
trazem consigo informacoes algumas vezes irrelevantes, porem combinado com outros
parametros podem resultar em melhorias de desempenho. Abaixo sao relacionadas outras
caracterısticas utilizadas em sistemas de reconhecimento de voz:(SALLEH, 2011)
i. Intensidade
ii. Linear Predicitive Coefficients(LPC)
iii. Cepstral coeficiente(CEPSTRAL) e Mel-frequency cepstral coefficients (MFCC)
iv. Tempo de gravacao das amostras
31
2.6.1 Intensidade
Alem da frequencia fundamental(pitch) como mencionado acima , a intensidade do
sinal de voz, tambem chamada de ganho pode ser um diferencial e tem sua influencia na
determinacao do locutor. A variacao da intensidade da fala sao causadas pela variacao da
pressao sub-glotal bem como o formato do trato vocal em funcao do tempo. A intensidade
da fala pode ser medida por meio da amplitude da onda sonora que atravessa o trato vocal
em um pequeno intervalo de tempo. Na maioria dos casos de sistemas de verificacao do
locutor a intensidade e usada em conjunto com o pitch. Alguns estudos tambem mostram
que o espectro das frequencias de formantes encontrados nas amostras foram efetivos,
sendo que o pitch estava em segundo lugar (MARKEL, 1972) (HOSSAIN, 2018).
2.6.2 Linear coeficientes preditivos (LPC)
Entre os metodos utilizados para analise da fala, muitos sao baseados na tecnica
denominada modelagem preditiva linear. Sua abordagem teorica, apesar de antiga, e
importante devido sua precisao, velocidade computacional e entendimento do processo
de producao da fala. Dependendo da aplicacao uma forma de coeficiente linear preditivo
(LPC) pode ser mais eficiente do que outra. O LPC tem em seu conceito basico, a analise
teorica da producao do sinal da fala atraves de modelos produzidos pelo estimulo de sons
atraves de tubos ressonantes. Embora aparentemente simplificado, esse modelo e, na
verdade, uma aproximacao matematica consistente da producao de um sinal de voz. A
corda vocal com frequencia e intensidade especıfica excitando o trato vocal e representado
na forma de tubo ressonante. As ressonancias dao origem aos formantes(harmonicas),
ou frequencia caracterısticas do trato vocal quem moldam o som produzido. Como os
sinais de fala variam com o tempo, esse processo de modelagem e feito em pequenas
janelas temporais que sao chamadas de quadros; geralmente 30 a 50 quadros por segundo
e sendo suficiente para analisar uma sentenca/palavra inteligıvel ou representa-la com boa
compressao. LPC e um metodo de estimativa espectral util em muitas areas da producao
de fala, devido a sua caracterıstica de calculo direto do modelo de fala, de sua compactacao
de detalhes espectrais e sua representacao eficiente da sıntese da fala (SHAUGHNESSY,
1987) (HERMANSKY, 1990).
Caracterısticas como Perceptual Linear Predicition (PLP) e Relative Spectral Percep-
32
tual Linear Predicition ( RASTA PLP) sao obtidas por um conceito percentual dentro
do LPC. O principio basico do RASTA e que o processo de audicao do ser humano e
relativamente insensıvel diante a estımulos de variacao lenta. Basicamente e um metodo
que simula a escuta humana reduzindo a sensibilidade da convolucao do ruido, bem como
a supressao desses componentes que possuem lenta variacao, permitindo desse modo me-
lhor performance nos sistemas de reconhecimento do locutor (FURUI, 2000)](HOSSAIN,
2018).
2.6.3 Cepstral coeficiente(CEPSTRAL) e Mel-frequency cepstral coefficients
(MFCC)
Na analise da fala o grande desafio tem sido encontrar modelos matematicos que mais
se aproximam da producao de fala. O modelo mais comum e a saıda de um sistema linear,
variavel no tempo (que pode ser comparado ao trato-vocal), excitado por pulso quase-
periodico (corda vocal). Porem, uma vez observado que o sinal da fala e o resultado da
convolucao de uma excitacao (cordas vocais ) com a resposta de um momento fisiologico
do trato vocal, a separacao ( ou seja a deconvolucao ) desses dois componentes nao e uma
acao tao simples. Em geral, a deconvolucao de dois sinais convoluidos e impossıvel, mas
funciona no caso de fala porque ambos os sinais (corda vocal e trato vocal ) possuem
caracterısticas espectrais bastante diferentes (RABINER; JUANG, 1993).
O Cepstrum e a transformada inversa de Fourier do logaritmo do espectro de potencias
de um sinal e pertence a area de processamento de sinais homomorficos. Foi introduzida
inicialmente em 1963, e por definicao o Cepstrum e calculada conforme equacao 3 (RA-
BINER; SCHAFER, 1978).
(3)
Cepstrum e um anagrama das letras da palavra espectro (spectrum) e definiram um
extenso vocabulario para descrever esta nova tecnica de processamento de sinais. Atual-
mente, os termos Cepstrum , Quefrequency e Melfrequency tem sido utilizados utilizados
em sistemas de reconhecimento do locutor. Paralelamente, Oppenheim (1965) propos
uma nova classe de sistemas chamados ”sistemas homomorficos”no qual o Cepstrum se
classifica. Embora nao-lineares no senso classico, estes sistemas satisfazem a generalizacao
33
do principio de superposicao. O conceito de filtragem homomorfica (filtering) e bastante
geral, mas tem sido estudado de forma mais extensiva para a combinacao das operacoes
de multiplicacao e convolucao, pois modelos de sinais envolvem estas operacoes (HASAN
et al., 2004).
Figura 5: Sinal de Voz e Cepstrum
(FURUI, 2000)
A Figura 5, o grafico a esquerda e a plotagem de um sinal de voz em um pequeno inter-
valo de tempo de 20ms. O grafico a direita representa o Cespstrum do sinal a esquerda. O
pico de sinal no meio do grafico cepstrum e a frequencia do pitch(frequencia fundamental)
e os picos de menor amplitude representam as frequencias do trato vocal(NAZAR, 2002).
A diferenca entre Cepstrum e Mel-Frequency Cepstrum(MFCC) e que para o MFCC as
frequencias sao lineares ate 1000Hz e logaritimamente espacadas acima de 1000Hz atraves
de uma escala que representa a o sistema auditivo humano. Essa escala e conhecida como
melfrequency , conforme equacao 4 onde mel(f) corresponde ao mapeamento da frequencia
medida em Hertz para a escala melfrequency (RABINER, 2010).
(4)
Para cada quadro (em torno de 20 a 30ms) obtido na fase de pre-processamento,
um algoritmo computacional fornecera vetores com as caracterısticas MFCC na saıda,
conforme diagrama da Figura 6.
Power-Normalized Cepstral Coefficients (PNCC) e o um das caracterısticas da voz
desenvolvida a partir do cepstrum com grande performance em ambientes que possuem
alto nıvel de ruido. Alguns metodos de identificacao do locutor utilizam a combinacao de
MFCC e PNCC para aumentar a acuracidade do sistema (KALTAKCHI et al., 2016).
34
Figura 6: Diagrama de fluxo para obtencao do MFCC
(RABINER, 2010)
2.6.4 Tempo de gravacao das amostras
A performance de sistemas ASV degradam drasticamente com a reducao do tempo de
duracao das amostras utilizadas no treinamento e teste , sendo 10 segundos considerado
o tempo mınimo necessario para sistemas de ASV (HAMILCI; ERTAS, 2012)(POODAR;
SAHIDULLAH; SAHA, 2015)(ARNAB; SAHIDULLAH; SAHA, 2017).
Na figura 7 e apresentada a performance de um sistema de identificacao do locutor em
termos de EER% para teste com segmentos de gravacao com diferentes tamanhos , usando
as tecnicas de classificacao GMM-UBM e i-vector GPLDA , dois metodos de classificacao
considerados estado-da-arte em um corpus NIST SRE 2010 (NIST-SRE, 2010). Os tempos
foram criados por meio de um corte na gravacao original no banco de dados. A duracao
do treinamento foi fixada em 2,5 minutos (ARNAB; SAHIDULLAH; SAHA, 2017).
2.6.5 Outros parametros de representacao da fala
Os parametros apresentados sao usualmente utilizados em sistemas de reconhecimento
do locutor. Esta secao apresenta algumas caracterısticas da voz humana que poderiam
ser utilizadas na identificacao de um locutor.
- Frequencias formantes podem ser definidas como a ressonancia do trato vocal e nasal.
O trato vocal pode variar seu formato modificando diferentes frequencias de ressonancia e
os diferentes sons emitidos. Em uma fala continua as frequencias formantes estao em cons-
35
Figura 7: Variacao do EER x Tempo de teste de gravacao
(ARNAB; SAHIDULLAH; SAHA, 2017).
tante mudancas. A dificuldade desta abordagem e a obtencao das frequencias formantes
(OLIVE, 1971)(NAYANA; MATHEWA; THOMASA, 2017).
- E fato que as pessoas nunca falam as mesmas palavras na mesma velocidade , na
mesma taxa e uniformidade. Algumas pessoas falam rapido demais e outras mais lenta-
mente. Devido a essas relativas diferencas de velocidades de eventos em uma sentenca,
que nao ocorrem ocasionalmente , existem estudos para mensurar tais diferencas na linha
do tempo de modo a utiliza-las como base para um metodo de identificacao de um locutor
(ATAL, 1976) (SALLEH, 2011).
2.7 Modelagem, aprendizado e classificacao
A extracao das caracterısticas sao usadas para gerar modelos correspondentes para
cada locutor e guardar essa informacao dentro de um banco de dados para posterior
comparacao de performance na fase de testes. A classificacao ou identificacao , e o estagio
final. Pontuacoes sao computadas para cada locutor na base de dados e conforme modelo
adotado. Maior ou menor valor de pontuacao ,representa a similaridade entre a amostra
sob teste e as amostras da base de dados. O teste de identificacao e feito para verificar
qual deles mais se aproxima da amostra de teste.
Os principais elementos de sistemas de reconhecimento sao os subsistemas de ex-
tracao de caracterısticas e a classificacao propriamente dita. A fase da extracao tem como
objetivo computacional extrair parametros do comportamento do sinal da voz, elaborar
36
modelos de aprendizagem e testar todas as fases do projetado. Modificacoes sao feitas
nesta fase de modo a limitar o numero de variaveis para serem testadas no reconhecimento
do locutor. Esta fase consiste de treinamento e teste, envolve a comparacao dos vetores
das variaveis de entrada derivado de um locutor desconhecido com o vetor referencia
obtido na fase de extracao, conforme diagrama da Figura 8.
Figura 8: Diagrama de Classificao
(CHOU; JUANG, 2003) p.251
Convencionalmente utiliza-se tecnicas de Hidden Markov Model (HMM), Gaussian
Mixture Model (GMM),Vector Quantization(VQ) , i-Vector, entre outras. Redes Neurais
tem sido utilizadas como um metodo alternativo e atual para resolver problemas de reco-
nhecimento, numa forma hibrida de trabalho (FURUI, 2000). Para esse projeto utilizare-
mos tecnicas de kNN (k nearest neighboors), um algoritmo simples de ser implementado
e de facil compreensao, que sera aplicado no metodo aqui proposto de replicacao de pitch.
, O princıpio por tras do algoritmo k-NN classifier (k-vizinhos mais proximos) e encontrar
um numero predefinido de amostras de treinamento que estao mais proximas da distancia
de um novo ponto e prever um rotulo para o novo ponto usando essas amostras. Embora
o processo de classificacao possa ser custosa em alguns momentos conhecida como ava-
liacao preguicosa (lazy evaluation), sua implementacao e simples (SILVA; SARAJANE;
CLODIS, 2016).
O algoritmo k-NN e um classificador robusto e versatil que e frequentemente usado
como referencia para classificadores mais complexos, como Redes Neurais (NN) e Support
Vector Machines (SVM). Apesar de sua simplicidade, k-NN pode superar classificadores
37
mais poderosos e e usada em uma variedade de aplicacoes.
Para o trabalho foi utilizada a metrica vetorial da Distancia Euclidiana DE(x,y) ,
descrita pela equacao 5. A variavel k do k-NN refere-se ao numero de vizinhos mais
proximos que se deseja encontrar. Por exemplo, se desejar conhecer quais os tres locutores
que possuam vozes similares tecnicamente , o valor de k=3 para uma comparacao atraves
do algoritmo k-NN.
(5)
Sendo que xi e yi podem ser entendidos como as amostras de pitch de treinamento e
teste, p e o numero de amostras de pitch e k e a quantidade de exemplares mais proximos
ao exemplar de teste (SILVA; SARAJANE; CLODIS, 2016).
2.7.1 Sistemas de verificacao do locutor
Diversas empresas tais como IBM , Google , Microsoft , Hewlett Packard , T-Systems
entre outras tem desenvolvido grandes projetos de sistemas de reconhecimento de voz e
de interlocutor, apresentando avancos tecnologicos no estado-da-arte.
O processo de biometria da voz contempla basicamente duas variaveis que mudam
constantemente, uma delas e a variacao das caracterısticas extraıdas e a outra e o meio
ou metodo utilizado para obter a informacao, chamado de canal. No caso da biometria da
voz, as variacoes rapidas da voz, seja na amplitude, cadencia, pronuncia, condicoes fısicas
ou emocionais do locutor, etc., alteram os valores das caracterısticas extraıdas para com-
paracao, e a outra e a variacao de os meios de comunicacao para captacao do sinal, como
ambientes ruidosos, linha telefonica, equipamentos de media de transmissao entre outros,
que afetam diretamente as informacoes sao chamados de caracterısticas do canal. Esses
dois aspectos, representam desafios para a biometria da voz e identificacao do locutor, uma
vez que a classificacao lida com vetores de parametros N-dimensionais, localizados em um
hiperplano que sao distintos mas morfologicamente agrupados. Tecnicas como i-vector,
GMM-UBM e redes neurais profundas, conhecidas como DNN (deep neural networks),
sao consideradas o estado-da-arte em sistemas de reconhecimento do locutor (NAYANA;
MATHEWA; THOMASA, 2017).
38
3 METODOLOGIA
3.1 Metodologia de analise proposta
O sistema de reconhecimento do locutor proposto neste projeto visa classificar padroes
de um locutor, usando o algoritmo k-NN (k nearest neighbor). A metodologia utiliza
parametros para representar uma caracterıstica especıfica da fala, neste caso, os valores
de pitch, obtidos no estagio de pre-processamento do sinal de voz, com a geracao de ma-
trizes temporais. Essas matrizes temporais reproduzem as variacoes globais no tempo,
assim como o espectro do sinal. A replicacao de pitch e usada para aumentar a quan-
tidade de comparacoes de informacoes que e fornecida ao algoritmo k-NN. A gravacao e
processamento de voz para identificacao do locutor sao feitos por meio de uma plataforma
desenvolvida em MATLAB. Todos os valores de pitch sao normalizados no intervalo [0 1]
, individualmente para cada extrator (CEPSTRAL, SHR e MFFT) em conjunto com a
gravacao do locutor que deseja ser identificado, o conteudo dessa tabela e usado como o
conjunto de dados para geracao de um modelo e classificacao com a execucao do algoritmo
k-NN, conforme as quatro etapas descritas abaixo:
a) Primeira etapa, todas as gravacoes utilizadas , tanto para a base treinada como
para a base de teste, sao reduzidas a um tempo de gravacao de tres segundos, com uma
frequencia de amostragem de 8 Khz e com 8 bits de quantizacao.
b) Segunda etapa, por meio de tres extratores , foram obtidos os valores e quanti-
dades de pitch de tres segundos de gravacao. Foram utilizados os extratores (CEPS-
TRAL)(RABINER, 2010)(FURUI, 2000),Subharmonic-to-Harmonic ratio (SHR)(SUN,
2000) e Maximum value of Fast Fourier Transform (MFFT)(RABINER; SCHAFER,
1978).
Devido as caracterısticas de cada extrator, a quantidade de pitchs uteis obtidos por
cada extrator difere em quantidades extraıdas e valores. Em media, cada extrator pode
obter entre 20 a 80 valores de pitchs uteis (em um registro de 3 segundos) que serao
utilizados no modelo proposto de replicacao e posterior classificacao. Foram adotados
como valores de pitchs uteis, aqueles que oscilam entre 30% do valor medio das amostras
de pitchs de uma gravacao de tres segundos. Como observado, devido as variacoes das
39
caracterısticas extraıdas de um locutor, bem como a variacao do canal de comunicacao,
a quantidade e os valores de pitchs , sofrem mudanca mesmo em uma gravacao de um
mesmo enunciado. A proposta e a comparacao de gravacoes com enunciados diferentes,
ou seja, independe do texto pronunciado.
c) Na terceira etapa, a tecnica de replicacao proposta e aplicada. O metodo consiste
em replicar os valores e quantidades de valores de pitchs obtidos no segundo estagio ate
atingir uma quantidade maxima predeterminada de valores de pitchs. Por exemplo, se
o extrator SHR obteve 50 valores de pitchs a partir de um dado registro de 3 segundos
e o numero maximo de valores de pitchs replicados a serem analisados forem de 600
pitchs (por exemplo), os 50 valores de SHR serao replicados 12 vezes, criando assim um
matriz 1x600 (50 x 12 = 600). Quando definida a quantidade maxima de pitchs (esta sera
mantida para todas as gravacoes , seja da base de treinamento como base de teste) e para
todos os extratores propostos, no caso (CEPSTRAL, SHR e MFFT).
Caso a quantidade maxima nao seja multiplo inteiro da quantidade de pitchs, entao
o valor sera truncado ou completado ate que o valor maximo proposto seja atingido. Do
exemplo anterior, se o MFFT obtiver 70 valores de pitchs uteis de uma determinada
gravacao e o valor maximo para comparacao e de 600 pitchs, teremos o seguinte modelo
de replicacao: 8 x 70 = 560 valores de pitchs e que sera completado com mais 40 primeiros
valores de pitchs dos 70 obtidos no extrator MFFT ate atingir o valor maximo de 600
pitchs.
d) A quarta e ultima fase consiste em identificar um determinado locutor em um banco
de dados previamente gravados, utilizara para isso como classificacao o algoritmo k-NN
(k vizinhos mais proximos). Isso definira os candidatos dentro da base gravada , com
maior probabilidade de ser o locutor que esta sendo testado. O metodo proposto utiliza
os resultados replicados dos tres extratores (CEPSTRAL, SHR e MFFT) e classificados
independentemente por meio do algoritmo k-vizinhos mais proximos.
Na Figura 9 e apresentada de uma forma simplificada o metodo proposto de replicacao
de pitch obtido dos tres extratores (CEPSTRAL, SHR e MFFT), para comparacao e
classificacao usando o algoritmo k-NN.
40
Figura 9: Diagrama de replicacao proposto
3.2 Descricao das fases do projeto e materiais
Foi utilizado o software MATLAB (MATrix LABoratory) por tratar-se de uma plata-
forma interativa de alta performance voltada para o calculo numerico em diversas areas
da engenharia, alem de disponibilizar ferramentas ja pre-formatadas na area do estudo
da voz.
Para iniciar o projeto foi utilizado um software basico feito em MATLAB e gratuito
obtido na Free Software Foundation, Inc.,675 Mass Ave, Cambridge, MA 02139, USA
(ftp://prep.ai.mit.edu/pub/gnu). A partir desse software foram feitas inumeras alteracoes
e inclusoes de varias sub-rotinas e facilidades , transformando-a em uma plataforma com-
pleta de gravacao e testes de reconhecimento. Esta plataforma recebeu o nome de PEVIM
( Plataforma de Estudo de Voz Instituto Mackenzie). Na Figura 10 e apresentado uma
visao geral da plataforma elaborado. O principal objetivo da plataforma e o carregamento
das gravacao dos enunciados da base de treinamento e teste, obtencao dos valores de pitch
41
e a geracao de relatorios conforme os algorıtimos (CEPSTRAL, SHR e FTT) propostos.
Figura 10: Visualizacao da Plataforma PEVIM
Durante varias momentos do trabalho foi utilizada a plataforma PRAAT (PRAAT,
2017) fornecida gratuitamente pela Universidade de Amsterda , reconhecida no mundo
academico como referencia na extracao do valor do pitch , de modo a se comparar os
valores obtidos com a plataforma PEVIM , e verificar sua eficiencia.
3.2.1 Analise da gravacao do locutor para obtencao do pitch
De modo a se padronizar a gravacao, bem como o tamanho da amostra , adotou-se
que todas as gravacoes teriam que passar por uma sequencia de qualificacao inicial , na
Figura 11 e apresentado um diagrama simplificado das principais fases de um sistema de
reconhecimento de voz.
Consideracoes adotadas no trabalho:
1) Foram utilizadas as mesmas condicoes de frequencia de amostragem , numero
de bits por amostra em um unico canal de voz. Para isso foi necessario a criacao
de sub-rotinas de re-amostragem, para que ficassem equivalentes.
2) Foram elaboradas rotinas para retirar perıodos de silencio.
42
Figura 11: Diagrama funcional para identificacao do locutor por classificador
3) Para eliminar ruıdos ou sinais de baixa amplitude, foi adotado um valor re-
ferencia minima aceitavel do sinal , adotou-se um percentual sobre a diferenca
entre o valor DC maximo e o mınimo, conforme equacao 6.
Valor Referencia = Mınimo + (Maximo - Mınimo)*Percentual/100 (6)
onde:
Mınimo = Menor valor DC obtido do segmento da amostra de voz
Maximo = Maior valor DC obtido do segmento da amostra de voz
Percentual = % da diferenca entre Maximo e Minimo
Amplitudes abaixo do valor de referencia foram descartados , para o trabalho foi
adotado o percentual de 20%.
4) Para os tres modelos de extrator de pitch e caracterısticas (CEPSTRAL, SHR
e FTT) foi utilizado o mesmo numero de agrupamento de voz, para cada gravacao
de 3 segundos. Por exemplo, numa determinada gravacao de 3 segundos na qual
ocorram 13 eventos de silencios e 6 agrupamentos de vozes uteis para analise do
extrator, todos os modelos utilizarao os mesmos 6 agrupamentos de voz para obter
suas caracterısticas e valores de pitch.
Note que isso nao implica que duas gravacoes com o mesmo texto e do mesmo locutor
43
possuam o mesmo numero e tamanho de agrupamento de voz. Por exemplo, se um dado
locutor pronunciar o texto ”Eu gosto de estudar no Instituto Mackenzie”duas vez. A
primeira gravacao pode fornecer por exemplo 8 agrupamento de voz , divididos conforme
intervalos ja mencionados e a segunda gravacao pode fornecer 14 agrupamentos de voz,
devido a outros fatores. A utilizacao dessa diferenca da nao linearidade de intervalos e
um diferencial no estudo desse projeto.
Apos cada gravacao passar pela qualificacao acima descrita , sao executados os al-
goritmos de extracao das variaveis para analise do locutor e determinacao de valores de
pitch conforme as caracterısticas de cada extrator (CEPSTRAL, SHR e FTT) e descrito
abaixo.
- Frame Blocking de 128 amostras com 64 de intervalo para os quadros de voz;
- Frequencia de amostragem 8khz;
- Janela de Hamming;
- Limite entre de 50 a 500 Hz para valores de Pitch;
Em media o extrator CEPSTRAL e SHR podem fornecer entre 60 a 80 pitchs por
gravacao de 3 segundos enquanto o extrator MFFT entre 20 a 40 pitchs, da mesma
gravacao.
3.2.2 Base de gravacao utilizada
Sistemas de reconhecimento do locutor de voz, utilizam dois conjuntos de base de
dados denominados ”Treinamento”e ”Teste”. O conjunto de ”Teste”e composto por
gravacoes cujos locutores desejamos identificar, enquanto o conjunto de ”Treinamento”contem
as gravacoes das identidades previamente conhecidas que serao utilizadas para treina-
mento dos algoritmos. Em um conjunto fechado de identificacao, todos os locutores de
”Teste”devem obrigatoriamente ter sua identidade no conjunto ”Treinamento”. Define-se
”opcao de escolha”ou ”rank”o resultado que possui maior probabilidade de semelhanca
entre a amostra de ”Teste”e de ”Treinamento”, quanto menor o numero da opcao ou rank,
maior a chance de similaridade.
O modelo de replicacao proposto foi testado como sistemas automaticos de identi-
ficacao do locutor (Speaker Identification-SI) em textos independentes do pronunciado,
44
utilizando para isso os registros das gravacoes de treinamento e teste do banco de dados
ELSDSR (English Language Speech Database for Speaker Recognition)(FENG, 2004),
com a finalidade de verificar o metodo proposto de replicacao.
O ELSDSR foi preparado pela Universidade da Dinamarca e referenciado em tra-
balhos similares(HOSSAIN, 2018). Os textos estao em ingles e sao lidos por 20 dina-
marqueses, um islandes e um canadense , totalizando 22 locutores. Todos os usuarios
fazem sete gravacoes, de sete enunciados diferentes, totalizando 154 gravacoes, denomina-
das como base de treinamento. Os mesmos 22 locutores fazem duas gravacoes, diferentes
dos enunciados de treinamento, referente a partes de um texto, totalizando 44 gravacoes,
denominadas como base de teste.
As gravacoes da base de treinamento e de teste possuem entre 5 a 15 segundos de
duracao, cada gravacao carregada para analise foi truncada em tres segundos, como pro-
posto nesse projeto.
O ELSDSR contem gravacoes de voz de 22 locutores, sendo: 10 mulheres e 12 homens
, entre idades de 24 a 63. A maioria deles sao alunos da graduacao e pos-graduacao,
tambem houve participacao de professores. A media de idade e de 31,3 anos.
Abaixo sao apresentados os sete enunciados pronunciados na lıngua inglesa referente
as gravacoes da fase de treinamento.
A) ”Chicken Little was in the woods one day when an acorn fell on her head. It
scared her so much she trembled all over. The poor girl shook so hard, half her
feathers fell out.”
B) ”Billions of black, shrimp-size bugs with transparent wings and beady red eyes
are beginning to carpet trees, buildings, poles, and just about anything else ver-
tical in the U.S. from the eastern seaboard west through Indiana and south to
Tennessee.”
C) ”Oymyakon, in Siberia, is the coldest permanently inhabited place on Earth.
Now geographer and adventurer Nick Middleton reveals the locals’ secrets for co-
ping with the cold.”
D) ”Few shores are immune from the tide of plastic soda bottles, bags, cartons,
and other trash floating on the ocean today. Now a new study suggests the problem
45
runs deeper: Microscopic bits of plastic permeate the world’s beaches and marine
environment.”
E) ”One hundred years later, the life of the Negro is still sadly crippled by the
manacles of segregation and the chains of discrimination.”
F) ”People are finding medieval toys in Britain’s Thames River?and these toys
have been changing how historians view the lives of medieval kids.”
G) ”My friend Tricia suggests me to drive to the woods to watch the poor bear
being hunted for pleasure. And I say yes.”
Os enunciados das gravacoes de teste foram tirados de um texto de tres paginas sobre
o antigo Egito. Desse texto, a base de dados ELSDSR disponibiliza 44 gravacoes, ou seja,
duas gravacoes por locutor.
Na Tabela 1 sao apresentados os valores medios e o desvio padrao do pitch, separados
por genero, obtidos pelos extratores (SHR, MFFT e CEPSTRAL) das sete gravacoes dos
enunciados acima mencionados do banco de dados ELSDSR, sendo que todas as gravacoes
foram limitadas em um tempo de duracao de 3 segundos.
Tabela 1: Tabela dos valores medios de pitch (em Hz) medidos na base de treinamento
Na Tabela 2 e apresentado o valor medio do pitch das sete gravacoes [a → f] em um
perıodo de gravacao de 3 segundos, separados por extrator.
46
Tabela 2: Tabela dos valores medios de pitch (em Hz) medidos das sete gravacoes
47
Na Figura 12 pode ser observada a diferenca entre o valor medio de pitch de uma
voz feminina e uma voz masculina. Em media, para essa base de dados analisada, a voz
feminina obteve um valor medio de 212,197 Hz e a voz masculina um valor de 129,578
Hz, que se encontram dentro dos limites apresentados na literatura (RABINER, 2010).
Figura 12: Grafico do valor medio do pitch (em Hz) dos tres extratores e sete gravacoes.
3.3 Avaliacao do Sistema Proposto
Para atingir o objetivo sao apresentados quatro metodos de avaliacao.
1- Autoteste com a base de treinamento;
2- Teste parcial com a base de treinamento;
3- Teste total com a base de teste;
4- Analise do FAR e FRR;
1- O Autoteste, consiste em utilizar o proprio banco de dados de treinamento como
base de dados para teste, ou seja, 154 gravacoes (7x22 locutores) para o treinamento e as
mesmas 154 para testar o sistema. Para esse primeiro experimento, devido a utilizacao do
metodo de classificacao k-NN no qual a comparacao e feita atraves da distancia euclidiana,
obteve-se uma taxa de reconhecimento de 100%, ou seja, todas as 154 gravacoes foram
identificadas corretamente. Isso pode ser considerado bastante obvio no primeiro momento
48
, porem esse resultado pode nao ser factıvel para outros modelos de classificacao.
2- No teste parcial , parte do banco de dados de voz de treinamento e utilizado como
treinamento e o restante para teste. Ou seja, adotou-se 88 (4x22 locutores) das 154
gravacoes para treinamento e as 66 (3x22 locutores) restantes foram usadas para testar.
Foram adotados dois modelos de replicacao, com 200 e 600 pitchs, respectivamente. A
taxa de reconhecimento e apresentada conforme Tabela3. Devido a alteracao de 200
para 600 replicacoes de pitchs obteve-se um aumento de 18,2 pontos percentuais na taxa
de reconhecimento para toda a base analisada. Como a base de treinamento possui
quatro gravacoes genuınas, foi adotado que qualquer uma das tres gravacoes testadas e
identificadas, e considerada como reconhecimento do respectivo locutor.
3- No teste total , foram utilizadas as 154 gravacoes (7x22 locutores) da base de
dados de treinamento e as 44 gravacoes (2x22 locutores) da base de testes para avaliar
o desempenho do algoritmo. Foram adotado dois modelos de replicacao , com 200 e 600
pitchs, respectivamente. A taxa de reconhecimento e apresentada conforme Tabela 4.
Devido a alteracao de 200 para 600 replicacoes de pitchs obteve-se um aumento de 13,7
pontos percentuais na taxa de reconhecimento para toda a base analisada. Como a base
de treinamento possui sete gravacoes genuınas, foi adotado que qualquer que seja uma das
duas gravacoes testadas e identificadas e considerada como reconhecimento do respectivo
locutor.
As taxas de reconhecimentos do segundo e terceiro testes acima mencionados, foram
obtidas atraves do reconhecimento da primeira opcao de escolha (pode-se entender como
rank de escolha), ou seja, se um locutor foi encontrado na segunda ou posterior opcao de
escolha, esse valor nao reflete no valor apresentado. Devido ao fato de ser muito proximo
ao limite de semelhanca, e apresentarem valores baixos de taxa de reconhecimento, adotou-
se o modelo de identificacao por grupo de gravacoes de teste, pois um dos objetivos do
trabalho e mostrar a performance do metodo proposto de replicacao, com gravacoes de
enunciados de tres segundos de duracao.
As Tabelas3 e 4 referem-se aos valores obtidos atraves do extrator SHR , os extratores
CEPSTRAL e MFFT mantiveram performance similares, com aumento entre 10 a 20
pontos percentuais no valor da taxa de reconhecimento devido ao metodo proposto de
replicacao.
49
Tabela 3: Tabela da taxa de reconhecimento,teste parcial 4 x 3.
50
Tabela 4: Tabela da taxa de reconhecimento, teste total 7 x 2.
4- Para determinacao da taxa de falsa rejeicao (FRR) e da taxa de falsa aceitacao(FAR),
foram utilizadas as gravacoes apresentadas do terceiro metodo acima proposto, ou seja,
154 gravacoes para a base de treinamento (7x22 locutores) e 44 gravacoes para a base de
teste (2x22 locutores). Da base de teste, cada locutor possui duas gravacoes, portanto
das 44 gravacoes, 42 sao consideradas impostoras e para a base de treinamento das 154
gravacoes, 7 sao consideradas genuınas, pois cada locutor gravou sete enunciados. Para
determinacao do FAR e FRR foram considerados os dados obtidos do extrator SHR e
MFFT, extraıdos pela geracao de 44 templates de gravacoes testadas individualmente nas
51
154 gravacoes da base de treinamento, gerando dessa forma a quantidade de impostores
que ultrapassaram cada um dos limites estipulados para o calculo do FAR e a quantidade
de locutores genuınos abaixo de cada um dos limites estipulados para calculo do FRR.
Todos os valores trabalhados foram normalizados.
Nas Figuras 13 e 14 sao apresentadas as curvas resultantes dos calculos de falsa rejeicao
e falsa aceitacao com a utilizacao do extrator SHR, onde foi possıvel se obter os valores
de EER, referente ao ponto de encontro das duas curvas FAR e FRR. Como observado,
houve uma reducao de 3,03 pontos percentuais no valor do EER%, ou uma melhora de
11,9% na taxa, devido a replicacao passar de 200 para 600 pitchs.
Figura 13: Grafico EER% utilizando extrator SHR com 200 de replicacao
Figura 14: Grafico EER% utilizando extrator SHR com 600 de replicacao
52
Nas Figuras 15 e 16 sao apresentadas as curvas resultantes dos calculos de falsa rejeicao
e falsa aceitacao com a utilizacao do extrator MFFT, onde foi possıvel se obter os valores
de EER, referente ao ponto de encontro das duas curvas FAR e FRR. Como observado,
houve uma reducao de 4,52 pontos percentuais no valor do EER%, ou uma melhora de
13,03% na taxa, devido a replicacao passar de 200 para 600 pitchs.
Figura 15: Grafico EER% utilizando extrator MFFT com 200 de replicacao
Figura 16: Grafico EER% utilizando extrator MFFT com 600 de replicacao
53
4 CONCLUSAO
O processo de biometria de voz contempla basicamente duas variaveis que mudam
constantemente: as diferencas nos valores das caracterısticas extraıdas e as diferencas de
canal (meio/metodo de obtencao da voz). Ambos estao diretamente ligados a modelos de
classificacao e seu desempenho, sendo cada vez mais necessario modelos matematicamente
solidos, computacionalmente rapidos e precisos.
Para o trabalho proposto, a quantidade de pitchs comparados e aumentada pela
tecnica de replicacao. E demonstrado que aumentar a quantidade de valores de com-
paracao de pitch tende a melhorar o desempenho de reconhecimento do locutor quando
um algoritmo classificador k-NN e empregado. O objetivo da replicacao e aumentar o
conjunto de comparacoes de caracterısticas extraıdas de uma gravacao de curto tempo de
duracao, no trabalho proposto foi de tres segundos.
Entretanto, deve-se atentar para alguns pontos do modelo proposto de replicacao,
tais como o valor maximo multiplicador comum e na qualidade e uniformidade das in-
formacoes.
Pode-se citar como exemplo 20 pitchs comparados com 40 pitchs , replicados em
”N”vezes, nesse caso temos somente um unico ciclo de comparacao ate 40 pitchs, pois se
repeteriam no ciclo seguinte.
Outro ponto importante e fundamental, e a necessidade da qualidade dos valores
extraıdos e sua uniformidade, pois caso contrario ao inves de compararmos positivamente
os pitchs, podemos cair em um processo de propagacao de erros. Isso pode ser verificado
pelo melhor valor obtido de EER% com extrator SHR comparado com MFFT, apesar de
ambos terem reducoes devido a replicacao.
A obtencao das caracterısticas da voz em curto tempo de duracao de enunciado traz
o problema do inıcio da gravacao , pois acaba trazendo consigo informacoes indesejaveis
como ruidos ou mesmo de silencio, caracterısticos de um inıcio de gravacao.
Para o trabalho em questao, as gravacoes carregadas do banco de dados ELSDSR
foram previamente trabalhadas de forma a minimizar esse efeito, com a criacao de rotinas
de carregamento onde foi possıvel a obtencao das informacoes do sinal de voz que conte-
54
nham alta energia (em outras palavras, som de boa qualidade e audıvel) e fundamental
para a performance do modelo proposto, pois caso contrario poderiam trazer informacoes
indesejaveis ou mesmo incorretas.
Os valores obtidos das taxas de reconhecimentos e do EER%, estao em conformidade
com trabalhos similares para identificacao de um locutor para um texto independente
do pronunciado em enunciados de curta duracao (HAMILCI; ERTAS, 2012) e (ARNAB;
SAHIDULLAH; SAHA, 2017).
Algumas propostas de melhoria do metodo de replicacao para reconhecimento do
locutor podem ser adicionadas, como por exemplo uma previa separacao de grupos com
valores similares do pitch (voz feminina e masculina), evitando desse modo a comparacao
com todo o banco de dados. Outra possibilidade seria a composicao de pesos entre os tres
extratores em conjunto com o nıvel de escolha(rank) de cada extrator, formando assim
uma matriz de reconhecimento, essas melhorias de performance seriam elaboradas atraves
de um sistema especıfico.
Tecnicas como coeficientes cespstral Mel-Frequency (MFCC) , PMCC (Coeficientes
Cepstrais Power-Normalizados) , RASTA PLP , PEFAC entre outros, podem refletir veto-
res de ordem N, mais suscetıveis ao ruıdo e de melhor performance. Classificadores como
GMM-UBM , i-vector e JFA trabalhando em conjunto com Redes Neurais profundas (
DEP-Learning), que podem trabalhar com hiperplanos tem sido o estado-da-arte em mo-
delos de identificacao do locutor para texto independente com enunciados de curto tempo
de duracao (KALTAKCHI et al., 2016) (HONG.SU et al., 2016) (NAYANA; MATHEWA;
THOMASA, 2017) (SNYDER et al., 2018), sendo esse um desafio para futuros trabalhos
de pesquisa na area de identificacao de locutor.
Os resultados obtidos para os algoritmos propostos (CEPSTRAL , SHR e MFFT)
apresentam valores semelhantes e dentro do escopo definido.
Sua performance no modelo continuo de gravacao demostra grande potencial na iden-
tificacao do locutor, devido ao numero maior de amostras na fase de teste obtidos no
tempo de curta duracao. Portanto o algoritmo proposto de biometria de voz baseado na
replicacao do pitch para enunciados de curta duracao em um sistema fechado e indepen-
dente do texto pronunciado tem um grande potencial de trabalho.
55
5 TRABALHOS PUBLICADOS
Publicacao: International Journal for Inovation Education and Research
ONLINE: ISSN:2411-2933 PRINT: ISNN: 2411-3123
Tıtulo: Voice Biometrics Based on Pitch Replication
Autores: L.C.Moreno and P.B.Lopes
DOI: https://doi.org/10.31686/ijier.Vol6.Iss10.1201
Paginas.351-358 - Vol 6 No 10 2018 de 31/10/2018
Fator de Impacto: 2015 : 4.565
56
REFERENCIAS BIBLIOGRAFICAS
ANANTHAN, S. N.; KUMARI, R. S. Language and Text-Independent Speaker
Identification Systems Using GMM. India: Department of Eletronics and Communication
Engineering Mepco Schlenk Engineering College, 2013.
ARNAB, P.; SAHIDULLAH, M.; SAHA, G. Speaker verification with short utterances:
a review of challenges, trends and opportunities. [S.l.]: IET Journals The Institution of
Engineering and Technology, 2017.
ATAL, B. Automatic Recognition Of Speaker From Their Voices, Pages 460-474. EUA:
IEEE, 1976.
ATAL, B. S. Automatic Speaker Recognition Based On Picth Contours. Bell telephone
laboratories. USA: Pages 1687-1697 of The Journal of Acoustic Society of America,
vol.52, 1972.
BOERSMA, P. Accurate short-term analysis of the fundamental frequency and the
harmonics-to-noise ratio of a sampled sound. Proceedings, 17 pp. 97-110. EUA: IFA,
1993.
BOLLE, R. M. et al. Guide to Biometrics. EUA: Springer, 2004.
CARDOSO, S. et al. Sistema de reconhecimento de comandos de voz utilizando pds e
rna, Anais do XVIII Congresso Brasileiro de Automatica, Mato Grosso. Brasil: Sesame,
2010.
CHOU, W.; JUANG, B.-H. Pattern Recognition in Speech and Language Processing.
China: GRC Press, 2003.
CUBUKCU, A. et al. Development of a voice-controlled home automation using zigbee
module, Signal Processing and Communications Applications , pp. 1801 - 1804. USA:
conference, 2015.
DEHAK, R. D. N. et al. Support vector machines versus fast scoring in the low-
dimensional total variability space for speaker verification. EUA: Proceedings of
Interspeech, p. 1559 1562, 2009, 2009.
57
DRUGMAN, T.; ALWAN., A. Join Robust Voicing Detection and Pict Estimation
Based on Residual Harmonics. Barcelona: Proceedings of the Annual Conference of the
Internacional Speech Communication Association, 2011.
FENG, L. Speaker Recognition Informatics and Mathematical Modelling. Dinamarca:
Technical Univeristy of Demmark, 2004.
FURUI, S. Digital Speech Processing, Synthesis, and Recognition ( second Edition,
Revised and Expanded). Japan: YesDee, 2000.
GONZALEZ, S.; BROOKES, M. PEFAC - A pitch estimation algorithm robust to
high levels of noise. USA: IEEE- Trans. Audio, Speech and Lang. Proc., vol 22
no.2,pp.518-530, 2014.
HAMILCI, C.; ERTAS, F. Investigation of the effect of data duration and speaker gender
on tex-independent speaker recognition. Turkia: Computer and Electrical Engineering,
2012.
HASAN, M. R. et al. Speaker Identification using Mel Frequency CEPSTRAL coefficients.
Dhaka: Bangladesh University of Engineering and Technology, 2004.
HEBERT, M. Text-dependent speaker recognition, pp 703-762. [S.l.: s.n.], 2008.
HERMANSKY, H. Perceptual Linear Predictive (PLP. [S.l.]: J.Acoust Soc. AM, vol 87,
no.4 , pp 1738-1752, 1990.
HERMES, D. J. Measurement of Pitch by Subharmonic Summation. Holanda: The
Journal of the Acoustical Society of America Vol,83 No1 pp.257-264, 1988.
HONG.SU et al. Convolutional Neural Network for Robust Pitch Determination. China:
Department of Computer Science, Inner Mongolia Univesity, Hohhot, China, 2016.
HOSSAIN, N. Speaker Identification from Extrated Features of Selective Energized Voice
Signal. India: Department of Conputer Sciencie and Engineering Bangladesh University
of Engineering and Technology Dhaka 1000, Bangladesh, 2018.
ISO24741. Information technology – Biometrics. USA: ISO/IEC JTC 1/SC 37 Biometrics,
2018.
58
J.J.DUBNOWSKI. Real-time digital hardware pitch detector,vol. ASSP-24, pp. 2-8,.
EUA: IEEE, 1976.
KALTAKCHI, M. T. S. A. et al. Study in Fusion Strategies and Exploiting the
Combination of MFCC and PMCC features for Robust Biometric Speaker Identification.
India: 4th International Workshop on Biometric and Forensics(JWBF), 2016.
KINNUNEM, T.; LI, H. An overview of text-independent speaker recognition from
features to supervectors, Speech Commun 52(1) , pp 12-40. [S.l.: s.n.], 2010.
KOO, Y.-M. et al. An intelligent motion control of two wheel driving robot based voice
recognition, Control, Automation and Systems (ICCAS)-14th International Conference
on, Seoul,South Korea. Korea: Conference, 2014.
LIU, S.; SILVERMAN, M. A Practical Guide to Biometric Security Technology. USA:
IEEE, 2001.
MAGALHAES, P. S. Biometria e autenticacao. Portugal: Universidade do Minho,
Guimaraes, https://repositorium.sdum.uminho.pt/bitstream/1822/2184/1/capsi.pdf,
2001.
MARKEL, J. D. The SIFT algorithm for fundamental frequency estimation,vol. AU-20,
pp.367-377,. EUA: IEEE, 1972.
MILLER, N. J. Pitch detection by data reduction,vol. ASSP-23, pp. 72-79. EUA: IEEE,
1975.
NAYANA, P.; MATHEWA, D.; THOMASA, A. Comparation of Text Independent
Speaker Identification Systems using GMM and i-Vector Methods. India: International
Conference on Advances in Computing e Communications, ICACC-2017, 2017.
NAZAR, M. N. Speaker Identification Using Cepstral Analysis. USA: IEEE, 2002.
NIST-SRE. Communications Technology Laboratory (CTL) - https://www.nist.gov/about-
nist. EUA: U.S. Department of Commerce, 2010.
OLIVE, J. Automatic Format Tracking by a Newton Raphson Technique, Pages 661-670.
EUA: The Jornal of the Acoustic Society of America, vol.50, 1971.
59
POODAR, A.; SAHIDULLAH, M.; SAHA, G. Performance comparison of speaker
recognition systemsin presence of duration variability , pp.1-6. [S.l.]: IEEE INDICON,
2015.
PRAAT. Plataforma Praat - http://www.fon.hum.uva.nl/praat/. Holanda: Universidade
de Amsterda, 2017.
RABINER, L. Center for Advanced Information Processing (CAIP) -
http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/. USA: Site, 2010.
RABINER, L. et al. A comparative performance study of several pitch detection
algorithms,. EUA: IEEE, 1976.
RABINER, L.; JUANG, B.-H. Fundamentals Of Speech Recognition. Prentice-hall. USA:
Englewood Cliffs, 1993.
RABINER, L.; SCHAFER, R. W. Digital Processing of Speech Signals. EUA: Alan
V.Oppenheim, 1978.
ROONEY, E. Nasality in Automatic Speaker Vermcation. Escocia: thesis, University of
Edinburgh, 1990.
ROSS, e. a. M. M. J. Average magnitude difference function pitch extractor, ASSP-22,
pp. 353-362,. EUA: IEEE, 1974.
SALLEH, S. H. S. Aplication of Neural Network for Voice Biometrics. Alemanha: VDM
Verlag, 2011.
SCHAFER, R. W.; RABINER, L. R. System for automatic formant analysis of voiced
speech vol. 47, pp. 634-648,. EUA: IEEE, 1970.
SHAUGHNESSY, D. Speech Communication Human and Machine. USA: Livro, 1987.
SILVA, L. A.; SARAJANE, S. M. P.; CLODIS, B. Introducao a Mineracao de Dados.
Brasil: ELSEVIER, 2016.
SNYDER, D. et al. X-Vectors- Robust DNN Embeddings for speaker recognition. USA:
Center for Language and Speech Processing-Human Language Thechonolog Center of
Excelence - The Johns Hopkins University, 2018.
60
SUN, X. A pitch determination algorithm based on subharmonic-to-harmonic ratio,
pp.679-679. China: 6th Internacional Conference of Spoken Language Processing, 2000.
SUTHERLAND, A. P. Automatic Speaker Veryication Based On Waveform Pertubation
Analysis. Escocia: thesis, University of Edinburgh, 1989.
TORRES, M.; SANFELIU, A. Pattern Recognition and Applications. Deutche: IOS
Press, 2000.
WEIFENG, L. et al. Feature denoising using joint sparse representation for in-car speech
recognition, Signal Processing Letters. USA: IEEE, 2013.
YEGNANARAYANA, B. et al. Combining evidence from source,suprasegmental and
spectral features for a fixed-text speaker verification system. EUA: IEEE Trans. Speech
Audio Process, 2005.
61