Please use this identifier to cite or link to this item:
http://hdl.handle.net/10174/30831
|
Title: | Authorship attribution using co-occurrence networks |
Authors: | Pires, David Laranjo |
Advisors: | Ferreira, Lígia Maria |
Keywords: | Atribuição de Autoria Processamento de Lingua Natural Grafos Redes de co-ocorrencia Classificação Authorship Attribution Natural Language Processing Graphs Co-Occurrence Networks Classification |
Issue Date: | 2-Nov-2021 |
Publisher: | Universidade de Évora |
Abstract: | Atribuição de Autoria utlizando Redes de
Co-Ocorrencia
Nesta tese é abordada a tarefa de Atribuição de Autoria como uma tarefa de classificação. As metodologias
utilizadas representam textos em grafos. Destes, várias medidas são extraídas, sendo utilizadas como
amostras para o classificador. Já existem alguns trabalhos que também se focam nesta metodologia. Esta
tese foca-se num método que divide o texto em várias partes e trata cada uma como um grafo. Deste, são
extraídas as medidas, que são tratadas como uma série temporal, da qual são extraídos momentos. Assim,
os momentos compõem o vetor final, representativo de todo o texto. A partir da metodologia aqui descrita
surgem mais duas variações. A primeira variação omite o passo das séries temporais, e, por consequência,
as várias medidas de cada grafo são utilizadas diretamente como amostras. A segunda variação representa
todo o texto como um só grafo. As metodologias são testadas com corpus em Inglês e Português, com
número variado de textos; Abstract:
Authorship Attribution using Co-Occurrence
Networks
This thesis approaches the task of Authorship Attribution as a classification task. This is done using
methodologies that represent text documents in graphs, from which several measures are extracted, to be
used as samples for the classifier. There have been some works that also focus on this methodology. This
thesis focuses on a methodology which splits the texts in multiple parts and treats each as a separate graph,
from which measures are extracted. Each graph’s measures are treated as a time-series and moments are
extracted. These moments make the final vector, representative of the entire text. This methodology is
explored and extended with 2 variations. The first variation skips the time-series step, resulting in the
various measures from each graph being used directly as samples. The second variation models the entire
text as one graph. The methodologies are tested in corpus in both English and Portuguese, with varying
number of texts. |
URI: | http://hdl.handle.net/10174/30831 |
Type: | masterThesis |
Appears in Collections: | BIB - Formação Avançada - Teses de Mestrado
|
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
|