|
Please use this identifier to cite or link to this item:
http://hdl.handle.net/10174/15193
|
Title: | Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social" |
Authors: | Emídio, Marco |
Advisors: | Quaresma, Paulo |
Issue Date: | 2011 |
Publisher: | Universidade de Évora |
Abstract: | A presente dissertação visa efectuar a extracção de informação de documentos históricos,
provenientes do Arquivo Histórico-Social (AHS), e construir um suporte digital para os
mesmos ao abrigo do projecto de investigação cientifica da Fundação para a Ciência e a
Tecnologia (FCT).
Para a extracção de informação dos documentos, aplicou-se a ferramenta Minorthird,
que possibilita a extracção de entidades mencionadas dentro dos textos, para posterior
avaliação de resultados, possibilitando a pesquisa de elementos chave nos textos introduzidos
no arquivo digital.
Os resultados obtidos revelaram-se promissores, tendo-se obtido uma precisão média
de 0,8753 e uma cobertura media de 0,5075 na identificação de pessoas, entidades, locais
e datas. Os melhores resultados foram obtidos na identificação de entidades, seguida das
datas, lugares e pessoas.
O algoritmo Conditional Random Fields (CRF) demonstrou um melhor comportamento
para a identificação de entidades, datas e locais, tendo o algoritmo Support Vector
Machines (SVM) apresentado melhores resultados para a identificação de pessoas.
Na concepção do arquivo digital, utilizaram-se ferramentas como Archon, Joomla!,
estando o portal disponível em http://arquivo-digital.xdi.uevora.pt/projecto/; ABSTRACT: This dissertation aims to perform information extraction of historical documents from
AHS, and build a digital archive for it promoted by the FCT scienti c research project.
For the document information extraction, a tool called Minorthird was used, which
enables extraction of named entities inside texts, for later results evaluation, enabling
the search of key elements in the inserted texts in the digital archive.
The results proved to be promising, getting a mean precision of 0,8753 and a mean
recall of 0,5075 by identifying persons, entities, places and dates. The best results were
obtained by identifying entities, followed by dates, places and persons.
The CRF algorithm presented better performance in identifying entities, dates and
places, having the SVM algorithm showed best results recognising persons.
The Archon and Joomla! tools were responsible of creating the digital archive, being
the website available at http://arquivo-digital.xdi.uevora.pt/projecto/. |
URI: | http://hdl.handle.net/10174/15193 |
Type: | masterThesis |
Appears in Collections: | BIB - Formação Avançada - Teses de Mestrado
|
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
|