Determinação de um modelo não intrusivo de qualidade de voz fundamentado na análise do sinal no domínio do tempo usando aprendizagem de máquina

Brandão Júnior, Luiz Carlos

Use este identificador para citar ou linkar para este item: http://repositorio.ufla.br/jspui/handle/1/35378

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Brandão Júnior, Luiz Carlos	-
dc.date.accessioned	2019-07-17T13:11:19Z	-
dc.date.available	2019-07-17T13:11:19Z	-
dc.date.issued	2019-07-17	-
dc.date.submitted	2019-06-14	-
dc.identifier.citation	BRANDÃO JÚNIOR, L. C. Determinação de um modelo não intrusivo de qualidade de voz fundamentado na análise do sinal no domínio do tempo usando aprendizagem de máquina. 2019. 115 p. Dissertação (Mestrado em Engenharia de Sistemas e Automação) – Universidade Federal de Lavras, Lavras, 2019.	pt_BR
dc.identifier.uri	http://repositorio.ufla.br/jspui/handle/1/35378	-
dc.description.abstract	Voice over Internet Protocol (VoIP) is one of the communication services that emerged in the early 1990s. In recent years, the capacity of IP networks has increased, and technology has gained more space by performing investment in quality of service. In this work, a solution is proposed to estimate the quality of a voice signal using signal information in the time domain and with the support of machine learning algorithms. The methodology was divided in three stages. In the first one, degradations were applied in environments that simulated wireless networks, making changes in two parameters that were, the signal-to-noise ratio (SNR) and the type of modulation scheme. In the tests, six different original sound signals were used. To perform these degradations, algorithms implemented in MATLAB were used to simulate the effect of fading in wireless environments. In the second step, graphs of the degraded audio signals were written, in the time domain that were saved, 272 images were used to train in 12 different machine learning algorithms implemented in the Weka tool. In the last step, the trained algorithms were placed in a Java-based software called PredictorFX in order to predict the value of MOS using an audio image in the time domain. The results were satisfactory, the best Regression Algorithms (ATR) were RandomTree, RandomForest and IBk with their correlation coefficients varying from 0.9886 to 0.9989 in the validation phase for the data that resulted in the MOS, called trained regression algorithm (ATR1). In relation to ATR2, which contains the information extracted from the images, the best algorithms were RandomTree, RandomForest, M5P and MLP, with correlation coefficient varying from 0.8638 to 0.9896, in the validation phase. Finally, for the Classification Training Algorithms (ATC) called ATC1, the best algorithms were OneR, J48, MLP and RandomForest with 58.82 % to 96.32 % of the correctly sorted instances. These results demonstrate that it is possible to conduct non-intrusive voice quality tests using models based on the ITU-T Recommendation P.862.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Lavras	pt_BR
dc.rights	acesso aberto	pt_BR
dc.subject	Métricas de qualidade	pt_BR
dc.subject	Voz sobre IP (VoIP)	pt_BR
dc.subject	Voz - Qualidade	pt_BR
dc.subject	Degradação	pt_BR
dc.subject	Desvanecimento	pt_BR
dc.subject	Wireless	pt_BR
dc.subject	Recomendação ITU-T P.862	pt_BR
dc.subject	Waikato Environment for Knowledge Analysis (WEKA)	pt_BR
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Quality metrics	pt_BR
dc.subject	Voice over IP (VoIP)	pt_BR
dc.subject	Speech quality	pt_BR
dc.subject	Impairment	pt_BR
dc.subject	Fading	pt_BR
dc.subject	ITU-T recommendation P.862	pt_BR
dc.subject	Machine learning	pt_BR
dc.title	Determinação de um modelo não intrusivo de qualidade de voz fundamentado na análise do sinal no domínio do tempo usando aprendizagem de máquina	pt_BR
dc.title.alternative	Determination of a non-intrusive voice quality model based on signal analysis in time domain using machine learning	pt_BR
dc.type	dissertação	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Sistemas e Automação	pt_BR
dc.publisher.initials	UFLA	pt_BR
dc.publisher.country	brasil	pt_BR
dc.contributor.advisor1	Rodrígues, Demóstenes Zegarra	-
dc.contributor.advisor-co1	Conceição, Gabriel Fernando Pivaro Leite da	-
dc.contributor.referee1	Rodríguez, Demóstenes Zegarra	-
dc.contributor.referee2	Rosa, Renata Lopes	-
dc.contributor.referee3	Begazo, Dante Coaquira	-
dc.description.resumo	A Voz sobre o Protocolo de Internet (VoIP) é um dos serviços de comunicação que surgiu no início da década de 1990. Nos últimos anos, a capacidade das redes IP foi incrementada, e a tecnologia passou a ganhar mais espaço realizando-se investimentos em qualidade de serviço. Nesse trabalho, é proposta uma solução para estimar a qualidade de um sinal de voz utilizando a informação do sinal no domínio do tempo e com o suporte de algoritmos de aprendizado de máquina. A metodologia foi dividida em três etapas, sendo que na primeira, foram aplicadas degradações em ambientes que simulavam redes wireless fazendo alterações em dois parâmetros que foram, a relação sinal-ruído (SNR) e o tipo de esquema de modulação. Nos testes foram utilizados seis sinais sonoros originais distintos. Para realizar estas degradações, algoritmos implementados em MATLAB foram utilizados para simular o efeito do fading em ambientes wireless. Na segunda etapa plotou-se gráficos dos sinais sonoros (de áudio) degradados, no domínio do tempo que foram salvos, usou-se 272 imagens para fazer o treinamento em 12 algoritmos distintos de aprendizado de máquina implementados na ferramenta Weka. Na última etapa, os algoritmos treinados foram colocados em um software feito em Java denominado de PredictorFX a fim de predizer o valor do MOS mediante uma imagem de áudio no domínio do tempo. Os resultados se mostraram satisfatórios, os melhores Algoritmos Treinados de Regressão (ATR), foram RandomTree, RandomForest e IBk com seus coeficientes de correlação variando de 0,9886 até 0,9989 na fase de validação para os dados que resultou o MOS, denominado de algoritmo treinado de regressão (ATR1). Em relação aos ATR2, que contém as informações extraídas das imagens, os melhores algoritmos foram RandomTree, RandomForest, M5P e MLP, com coeficiente de correlação variando entre 0,8638 até 0,9896, na fase de validação. E por fim, para os Algoritmos de Treinamento para a Classificação (ATC) denominado de ATC1 os melhores algoritmos foram OneR, J48, MLP e RandomForest com 58,82\% a 96,32\% das instâncias corretamente classificadas. Tais resultados demonstram que é possível realizar testes de qualidade de voz de maneira não intrusiva usando modelos fundamentados na recomendação ITU-T P.862.	pt_BR
dc.publisher.department	Departamento de Engenharia	pt_BR
dc.subject.cnpq	Engenharias	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/4992193748825216	pt_BR
Aparece nas coleções:	Engenharia de Sistemas e automação (Dissertações)

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
DISSERTAÇÃO_Determinação de um modelo não intrusivo de qualidade de voz fundamentado na análise do sinal no domínio do tempo usando aprendizagem de máquina.pdf		4,98 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas