Repositório Digital de Publicações Científicas: Authorship attribution using co-occurrence networks


Sign on to:
	Login
	My DSpace authorized users
	Edit Profile
	Receive email updates

Browse
	Communities & Collections
	Issue Date
	Author
	Title
	Subject

Helps
	Regulamento RDPC
	Depósito RDPC
	Faq's RDPC

	Integração CV DeGóis
	Workshop Open Access

	Newsletter Open Access


	About Dspace
	DSpace Software

Repositorio Digital de Publicacoes Cientificas da Universidade de Evora

/ Biblioteca Geral / BIB - Formação Avançada - Teses de Mestrado /

Please use this identifier to cite or link to this item: http://hdl.handle.net/10174/30831

Title:	Authorship attribution using co-occurrence networks
Authors:	Pires, David Laranjo
Advisors:	Ferreira, Lígia Maria
Keywords:	Atribuição de Autoria Processamento de Lingua Natural Grafos Redes de co-ocorrencia Classificação Authorship Attribution Natural Language Processing Graphs Co-Occurrence Networks Classification
Issue Date:	2-Nov-2021
Publisher:	Universidade de Évora
Abstract:	Atribuição de Autoria utlizando Redes de Co-Ocorrencia Nesta tese é abordada a tarefa de Atribuição de Autoria como uma tarefa de classificação. As metodologias utilizadas representam textos em grafos. Destes, várias medidas são extraídas, sendo utilizadas como amostras para o classificador. Já existem alguns trabalhos que também se focam nesta metodologia. Esta tese foca-se num método que divide o texto em várias partes e trata cada uma como um grafo. Deste, são extraídas as medidas, que são tratadas como uma série temporal, da qual são extraídos momentos. Assim, os momentos compõem o vetor final, representativo de todo o texto. A partir da metodologia aqui descrita surgem mais duas variações. A primeira variação omite o passo das séries temporais, e, por consequência, as várias medidas de cada grafo são utilizadas diretamente como amostras. A segunda variação representa todo o texto como um só grafo. As metodologias são testadas com corpus em Inglês e Português, com número variado de textos; Abstract: Authorship Attribution using Co-Occurrence Networks This thesis approaches the task of Authorship Attribution as a classification task. This is done using methodologies that represent text documents in graphs, from which several measures are extracted, to be used as samples for the classifier. There have been some works that also focus on this methodology. This thesis focuses on a methodology which splits the texts in multiple parts and treats each as a separate graph, from which measures are extracted. Each graph’s measures are treated as a time-series and moments are extracted. These moments make the final vector, representative of the entire text. This methodology is explored and extended with 2 variations. The first variation skips the time-series step, resulting in the various measures from each graph being used directly as samples. The second variation models the entire text as one graph. The methodologies are tested in corpus in both English and Portuguese, with varying number of texts.
URI:	http://hdl.handle.net/10174/30831
Type:	masterThesis
Appears in Collections:	BIB - Formação Avançada - Teses de Mestrado

Files in This Item:

File	Description	Size	Format
Mestrado-Engenharia_Informatica-David_Laranjo_Pinto.pdf		1.7 MB	Adobe PDF	View/Open

Serviços de Ciência e Cooperação - Universidade de Évora