|
Please use this identifier to cite or link to this item:
http://hdl.handle.net/10174/22275
|
Title: | Técnicas de deep learning para detecção de eventos em áudio: treino de modelos acústicos a partir de sinais puros |
Authors: | Rijo, Sara Marina Albino |
Advisors: | Rato, Luís Miguel Mendonça Saias, José Miguel Gomes |
Keywords: | Redes neuronais profundas Classificação de som Aprendizagem máquina Dados reais Alta dimensionalidade Deep neural networks Sound classification Machine learning Real data High dimensionality |
Issue Date: | 15-Jan-2018 |
Publisher: | Universidade de Évora |
Abstract: | O vídeo é atualmente um dos recursos mais utilizados e em constante expansão no mundo digital, sendo que
em 2019 será responsável por 80% do tráfego mundial de Internet. Neste panorama, surgiu a problemática
da incapacidade humana e (até agora) tecnológica para descrever, interpretar e interagir com este elevado
volume de dados multimédia. Assim, têm sido desenvolvidos esforços para encontrar formas de automatizar
e melhorar o processo de análise de conteúdo de vídeo e consequentemente melhorar a eiciência, usabilidade
e acessibilidade dos vídeos armazenados por milhões de pessoas em todo o mundo. Este processo pode
focar-se na análise do som e imagem em simultâneo ou independentemente. Esta dissertação descreve a
concretização de um projecto de análise de som, que consistiu no desenvolvimento e implementação de um
sistema de classiicação de áudio utilizando uma abordagem baseada na utilização da waveform do som e
redes neuronais, excluindo a convencional fase de extração de características habitualmente utilizada em
aprendizagem máquina. Esta metodologia permite ultrapassar as limitações ao nível da ineicência temporal
de abordagens típicamente utilizadas. Sendo o áudio um componente de relevo no vídeo, torna-se assim
possível detectar e distinguir elementos de destaque, como por exemplo as partes mais cómicas, faladas
ou musicais. Elaborou-se também um conjunto de dados de sons exclusivamente para o projecto, tendo
em vista colmatar a utilização de dados de ‘laboratório’, isto é, obtidos em ambientes controlados, que
induzem a falsos positivos e não representam a estocacidade do som no ‘mundo real’. Os resultados obtidos
foram bastante satisfatórios, tanto pela rapidez do processo como pela sua precisão, que atingiu taxas de
reconhecimento dos sons na ordem dos 90%; O vídeo é atualmente um dos recursos mais utilizados e em constante expansão no mundo digital, sendo que
em 2019 será responsável por 80% do tráfego mundial de Internet. Neste panorama, surgiu a problemática
da incapacidade humana e (até agora) tecnológica para descrever, interpretar e interagir com este elevado
volume de dados multimédia. Assim, têm sido desenvolvidos esforços para encontrar formas de automatizar
e melhorar o processo de análise de conteúdo de vídeo e consequentemente melhorar a eiciência, usabilidade
e acessibilidade dos vídeos armazenados por milhões de pessoas em todo o mundo. Este processo pode
focar-se na análise do som e imagem em simultâneo ou independentemente. Esta dissertação descreve a
concretização de um projecto de análise de som, que consistiu no desenvolvimento e implementação de um
sistema de classiicação de áudio utilizando uma abordagem baseada na utilização da waveform do som e
redes neuronais, excluindo a convencional fase de extração de características habitualmente utilizada em
aprendizagem máquina. Esta metodologia permite ultrapassar as limitações ao nível da ineicência temporal
de abordagens típicamente utilizadas. Sendo o áudio um componente de relevo no vídeo, torna-se assim
possível detectar e distinguir elementos de destaque, como por exemplo as partes mais cómicas, faladas
ou musicais. Elaborou-se também um conjunto de dados de sons exclusivamente para o projecto, tendo
em vista colmatar a utilização de dados de ‘laboratório’, isto é, obtidos em ambientes controlados, que
induzem a falsos positivos e não representam a estocacidade do som no ‘mundo real’. Os resultados obtidos
foram bastante satisfatórios, tanto pela rapidez do processo como pela sua precisão, que atingiu taxas de
reconhecimento dos sons na ordem dos 90%; Abstract
Deep Learning for Sound Event Detection
Training acoustic models on waveforms
Video is currently one of the most used media resources, it’s use is expanding worldwide and predictions
point that by 2019 video will be responsible for 80% of the world’s internet traic. With this in mind the
problem of the impossibility for humans and technology (so far) to describe, interpret and interact with this
amount of multimedia data rouse. Thus eforts have been made to ind ways to automate and improve the
video content analysis process and consequently better the eiciency, usability and accessibility of video
stored by millions of people arround the world. This process can focus on the simultaneous analysis of
image and sound or independently. This dissertation describes a project that consisted in the development
and implementation of an audio classiication system using an emerging approach based on the use of the
sound waveform and neural networks, excluding the convetional feature extraction phase normally used
in machine learning. As the audio is an important component of video, this system allows detection of
important elements like the funnyest parts, where is speech and where is music. The results were very
satisfactory, both in terms of processing speed and precision, that reached classiication scores arround
90%. |
URI: | http://hdl.handle.net/10174/22275 |
Type: | masterThesis |
Appears in Collections: | BIB - Formação Avançada - Teses de Mestrado
|
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
|