Please use this identifier to cite or link to this item: http://hdl.handle.net/10174/22275

Title: Técnicas de deep learning para detecção de eventos em áudio: treino de modelos acústicos a partir de sinais puros
Authors: Rijo, Sara Marina Albino
Advisors: Rato, Luís Miguel Mendonça
Saias, José Miguel Gomes
Keywords: Redes neuronais profundas
Classificação de som
Aprendizagem máquina
Dados reais
Alta dimensionalidade
Deep neural networks
Sound classification
Machine learning
Real data
High dimensionality
Issue Date: 15-Jan-2018
Publisher: Universidade de Évora
Abstract: O vídeo é atualmente um dos recursos mais utilizados e em constante expansão no mundo digital, sendo que em 2019 será responsável por 80% do tráfego mundial de Internet. Neste panorama, surgiu a problemática da incapacidade humana e (até agora) tecnológica para descrever, interpretar e interagir com este elevado volume de dados multimédia. Assim, têm sido desenvolvidos esforços para encontrar formas de automatizar e melhorar o processo de análise de conteúdo de vídeo e consequentemente melhorar a eiciência, usabilidade e acessibilidade dos vídeos armazenados por milhões de pessoas em todo o mundo. Este processo pode focar-se na análise do som e imagem em simultâneo ou independentemente. Esta dissertação descreve a concretização de um projecto de análise de som, que consistiu no desenvolvimento e implementação de um sistema de classiicação de áudio utilizando uma abordagem baseada na utilização da waveform do som e redes neuronais, excluindo a convencional fase de extração de características habitualmente utilizada em aprendizagem máquina. Esta metodologia permite ultrapassar as limitações ao nível da ineicência temporal de abordagens típicamente utilizadas. Sendo o áudio um componente de relevo no vídeo, torna-se assim possível detectar e distinguir elementos de destaque, como por exemplo as partes mais cómicas, faladas ou musicais. Elaborou-se também um conjunto de dados de sons exclusivamente para o projecto, tendo em vista colmatar a utilização de dados de ‘laboratório’, isto é, obtidos em ambientes controlados, que induzem a falsos positivos e não representam a estocacidade do som no ‘mundo real’. Os resultados obtidos foram bastante satisfatórios, tanto pela rapidez do processo como pela sua precisão, que atingiu taxas de reconhecimento dos sons na ordem dos 90%; O vídeo é atualmente um dos recursos mais utilizados e em constante expansão no mundo digital, sendo que em 2019 será responsável por 80% do tráfego mundial de Internet. Neste panorama, surgiu a problemática da incapacidade humana e (até agora) tecnológica para descrever, interpretar e interagir com este elevado volume de dados multimédia. Assim, têm sido desenvolvidos esforços para encontrar formas de automatizar e melhorar o processo de análise de conteúdo de vídeo e consequentemente melhorar a eiciência, usabilidade e acessibilidade dos vídeos armazenados por milhões de pessoas em todo o mundo. Este processo pode focar-se na análise do som e imagem em simultâneo ou independentemente. Esta dissertação descreve a concretização de um projecto de análise de som, que consistiu no desenvolvimento e implementação de um sistema de classiicação de áudio utilizando uma abordagem baseada na utilização da waveform do som e redes neuronais, excluindo a convencional fase de extração de características habitualmente utilizada em aprendizagem máquina. Esta metodologia permite ultrapassar as limitações ao nível da ineicência temporal de abordagens típicamente utilizadas. Sendo o áudio um componente de relevo no vídeo, torna-se assim possível detectar e distinguir elementos de destaque, como por exemplo as partes mais cómicas, faladas ou musicais. Elaborou-se também um conjunto de dados de sons exclusivamente para o projecto, tendo em vista colmatar a utilização de dados de ‘laboratório’, isto é, obtidos em ambientes controlados, que induzem a falsos positivos e não representam a estocacidade do som no ‘mundo real’. Os resultados obtidos foram bastante satisfatórios, tanto pela rapidez do processo como pela sua precisão, que atingiu taxas de reconhecimento dos sons na ordem dos 90%; Abstract Deep Learning for Sound Event Detection Training acoustic models on waveforms Video is currently one of the most used media resources, it’s use is expanding worldwide and predictions point that by 2019 video will be responsible for 80% of the world’s internet traic. With this in mind the problem of the impossibility for humans and technology (so far) to describe, interpret and interact with this amount of multimedia data rouse. Thus eforts have been made to ind ways to automate and improve the video content analysis process and consequently better the eiciency, usability and accessibility of video stored by millions of people arround the world. This process can focus on the simultaneous analysis of image and sound or independently. This dissertation describes a project that consisted in the development and implementation of an audio classiication system using an emerging approach based on the use of the sound waveform and neural networks, excluding the convetional feature extraction phase normally used in machine learning. As the audio is an important component of video, this system allows detection of important elements like the funnyest parts, where is speech and where is music. The results were very satisfactory, both in terms of processing speed and precision, that reached classiication scores arround 90%.
URI: http://hdl.handle.net/10174/22275
Type: masterThesis
Appears in Collections:BIB - Formação Avançada - Teses de Mestrado

Files in This Item:

File Description SizeFormat
Mestrado - Engenharia Informática - Sara Marina Albino Rijo - Técnicas de deep learning....pdf6.47 MBAdobe PDFView/Open
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Dspace Dspace
DSpace Software, version 1.6.2 Copyright © 2002-2008 MIT and Hewlett-Packard - Feedback
UEvora B-On Curriculum DeGois