Please use this identifier to cite or link to this item:
http://hdl.handle.net/10174/29966
|
Title: | A question-answering machine learning system for FAQs |
Authors: | Haque, Sazzadul |
Advisors: | Quaresma, Paulo Miguel Gonçalves, Teresa |
Keywords: | Question Answering Closed Domain QA systems Similarity Measures Sentence Embedding BERT Unsupervised Learning Machine Learning Pergunta-Resposta Sistemas de Pergunta-Resposta de domínio fechado Medidas de similaridade Embbeding de frases BERT Aprendizagem não supervisionada Aprendizagem Automática |
Issue Date: | 28-May-2021 |
Publisher: | Universidade de Évora |
Abstract: | With the increase in usage and dependence on the internet for gathering
information, it’s now essential to efficiently retrieve information according
to users’ needs. Question Answering (QA) systems aim to fulfill this need
by trying to provide the most relevant answer for a user’s query expressed
in natural language text or speech. Virtual assistants like Apple Siri and
automated FAQ systems have become very popular and with this the constant
rush of developing an efficient, advanced and expedient QA system is
reaching new limits.
In the field of QA systems, this thesis addresses the problem of finding the
FAQ question that is most similar to a user’s query. Finding semantic similarities
between database question banks and natural language text is its
foremost step. The work aims at exploring unsupervised approaches for
measuring semantic similarities for developing a closed domain QA system.
To meet this objective modern sentence representation techniques, such as
BERT and FLAIR GloVe, are coupled with various similarity measures (cosine,
Euclidean and Manhattan) to identify the best model. The developed
models were tested with three FAQs and SemEval 2015 datasets for English
language; the best results were obtained from the coupling of BERT embedding
with Euclidean distance similarity measure with a performance of
85.956% on a FAQ dataset. The model is also tested for Portuguese language
with Portuguese Health support phone line SNS24 dataset; Sumário:
Um sistema de pergunta-resposta de aprendizagem
automatica para FAQs
Com o aumento da utilização e da dependência da internet para a recolha
de informação, tornou-se essencial recuperar a informação de forma eficiente
de acordo com as necessidades dos utilizadores. Os Sistemas de Pergunta-
Resposta (PR) visam responder a essa necessidade, tentando fornecer a resposta
mais relevante para a consulta de um utilizador expressa em texto em
linguagem natural escrita ou falada. Os assistentes virtuais como o Apple
Siri e sistemas automatizados de perguntas frequentes tornaram-se muito
populares aumentando a necessidade de desenvolver um sistema de controle
de qualidade eficiente, avançado e conveniente.
No campo dos sistemas de PR, esta dissertação aborda o problema de encontrar
a pergunta que mais se assemelha à consulta de um utilizador. Encontrar
semelhanças semânticas entre a base de dados de perguntas e o texto em
linguagem natural é a sua etapa mais importante. Neste sentido, esta dissertação
tem como objetivo explorar abordagens não supervisionadas para
medir similaridades semânticas para o desenvolvimento de um sistema de
pergunta-resposta de domínio fechado. Neste sentido, técnicas modernas
de representação de frases como o BERT e FLAIR GloVe são utilizadas em
conjunto com várias medidas de similaridade (cosseno, Euclidiana e Manhattan)
para identificar os melhores modelos. Os modelos desenvolvidos foram
testados com conjuntos de dados de três FAQ e o SemEval 2015; os melhores
resultados foram obtidos da combinação entre modelos de embedding
BERT e a distância euclidiana, tendo-se obtido um desempenho máximo de
85,956% num conjunto de dados FAQ. O modelo também é testado para a
língua portuguesa com o conjunto de dados SNS24 da linha telefónica de
suporte de saúde em português. |
URI: | http://hdl.handle.net/10174/29966 |
Type: | masterThesis |
Appears in Collections: | BIB - Formação Avançada - Teses de Mestrado
|
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
|