|
Please use this identifier to cite or link to this item:
http://hdl.handle.net/10174/11851
|
Title: | Extracção de relações entre entidades mencionadas |
Authors: | Sequeira, João Manuel dos Santos |
Advisors: | Gonçalves, Teresa Cristina de Freitas Quaresma, Paulo Miguel Torres Duarte |
Keywords: | Processamento de linguagem natural Classificação de argumentos sintácticos Reconhecimento de entidades Etiquetador de categorias gramaticais Corpora para língua portuguesa Natural language processing Semantic role labelling Named entity recognizer Part-of-speech tagger Corpora for the portuguese language |
Issue Date: | 2011 |
Publisher: | Universidade de Évora |
Abstract: | Actualmente existe uma grande quantidade de conteúdos digitais de cariz académico,
pessoal e noticioso, entre outros, disponvéis para consulta na Internet. A obtenção
de informação estruturada a partir destes conteúdos de forma manual tornou-se
praticamente impossível. Assim, nos últimos anos tem-se registado um aumento na
investigação de sistemas para análise e extracção de informação de forma automática.
A classicação dos documentos por temas ou categorias constitui uma forma de
relacionar conteúdos. No entanto, os documentos poderão, de igual forma, ser relacionados
a partir das entidades que neles figuram, sejam elas Pessoas, Locais ou
Organizações; mais ainda, ao extrair informação sobre as relações existentes entre
as entidades, as formas de interacção entre documentos tornam-se muito mais ricas
já que será possivel, por exemplo, relacionar os documentos que referem que determinada
entidade praticou determinada acção e quais as entidades que a sofreram.
Este trabalho propõe um sistema para identificação e extracção de relações entre
entidades presentes num documento. As relações são obtidas a partir de um classicador
de argumentos sintácticos utilizado em conjunto com um reconhecedor de
entidades.
Tratando-se de um sistema aplicado a língua Portuguesa foi necessário desenvolvimento
de alguns recursos específicos para a língua : um etiquetador de categorias
gramaticais e dois corpora: um para ser utilizado pelo etiquetador e outro com informação
sintáctica a nível das palavras, sintagmas e orações para ser utilizado na
tarefa de classicação de argumentos sintácticos.
Embora utilizando um classicador de argumentos sintácticos preliminar, a experimentação
mostra que o sistema desenvolvido consegue atingir o objectivo proposto
e identificar relações entre entidades. Por outro lado, a criação dos recursos referidos
vem enriquecer o conjunto de ferramentas disponveís para a língua Portuguesa
passíveis de serem utilizados em futuros trabalhos; ### Abstract:
Currently there is a large amount of digital content, being personal, academic and
news, among others, available on the Internet. Obtaining structured information
from these contents by hand has become virtually impossible. So, in recent years
there has been an increase in the investigation of systems for automatic analysis and
information extraction.
Classi cation of documents by themes or categories is a way of relating content.
However, documents can, likewise, be related by the entities they contain, being
they people, places or organizations; moreover, extracting information on relations
between the entities, the forms of interaction between documents become much
richer as it will enable, for example, to list the documents that refer to a particular
entity having practiced a speci c action and which entities have su ered that action.
This paper proposes a system for identifying and extracting relations between entities
present in a document. Relations are obtained from a semantic role labeller
used in conjunction with named entity recognizer.
Being applied to the Portuguese language, it was necessary to develop speci c resources
for the language: a part-of-speech tagger and two corpora: one to be used
with the POS-tagger and other with syntactic information for words, phrases and
sentences to be used by the semantic role labeller.
Although a preliminary semantic role labeller, experimentation shows that the system
can achieve the proposed objective and identify relationships between entities.
On the other hand, the creation of the refered resources will enrich the available
Portuguese language set of tools that can be used in future work |
URI: | http://hdl.handle.net/10174/11851 |
Type: | masterThesis |
Appears in Collections: | BIB - Formação Avançada - Teses de Mestrado
|
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
|