Repositório Digital de Publicações Científicas: Extracção de relações entre entidades mencionadas


Sign on to:
	Login
	My DSpace authorized users
	Edit Profile
	Receive email updates

Browse
	Communities & Collections
	Issue Date
	Author
	Title
	Subject

Helps
	Regulamento RDPC
	Guia do Utilizador RDPC
	Depósito RDPC
	Faq's RDPC

	Integração CV DeGóis
	Workshop Open Access

	Newsletter Open Access


	About Dspace
	DSpace Software

Repositorio Digital de Publicacoes Cientificas da Universidade de Evora

/ Biblioteca Geral / BIB - Formação Avançada - Teses de Mestrado /

Please use this identifier to cite or link to this item: http://hdl.handle.net/10174/11851

Title:	Extracção de relações entre entidades mencionadas
Authors:	Sequeira, João Manuel dos Santos
Advisors:	Gonçalves, Teresa Cristina de Freitas Quaresma, Paulo Miguel Torres Duarte
Keywords:	Processamento de linguagem natural Classificação de argumentos sintácticos Reconhecimento de entidades Etiquetador de categorias gramaticais Corpora para língua portuguesa Natural language processing Semantic role labelling Named entity recognizer Part-of-speech tagger Corpora for the portuguese language
Issue Date:	2011
Publisher:	Universidade de Évora
Abstract:	Actualmente existe uma grande quantidade de conteúdos digitais de cariz académico, pessoal e noticioso, entre outros, disponvéis para consulta na Internet. A obtenção de informação estruturada a partir destes conteúdos de forma manual tornou-se praticamente impossível. Assim, nos últimos anos tem-se registado um aumento na investigação de sistemas para análise e extracção de informação de forma automática. A classicação dos documentos por temas ou categorias constitui uma forma de relacionar conteúdos. No entanto, os documentos poderão, de igual forma, ser relacionados a partir das entidades que neles figuram, sejam elas Pessoas, Locais ou Organizações; mais ainda, ao extrair informação sobre as relações existentes entre as entidades, as formas de interacção entre documentos tornam-se muito mais ricas já que será possivel, por exemplo, relacionar os documentos que referem que determinada entidade praticou determinada acção e quais as entidades que a sofreram. Este trabalho propõe um sistema para identificação e extracção de relações entre entidades presentes num documento. As relações são obtidas a partir de um classicador de argumentos sintácticos utilizado em conjunto com um reconhecedor de entidades. Tratando-se de um sistema aplicado a língua Portuguesa foi necessário desenvolvimento de alguns recursos específicos para a língua : um etiquetador de categorias gramaticais e dois corpora: um para ser utilizado pelo etiquetador e outro com informação sintáctica a nível das palavras, sintagmas e orações para ser utilizado na tarefa de classicação de argumentos sintácticos. Embora utilizando um classicador de argumentos sintácticos preliminar, a experimentação mostra que o sistema desenvolvido consegue atingir o objectivo proposto e identificar relações entre entidades. Por outro lado, a criação dos recursos referidos vem enriquecer o conjunto de ferramentas disponveís para a língua Portuguesa passíveis de serem utilizados em futuros trabalhos; ### Abstract: Currently there is a large amount of digital content, being personal, academic and news, among others, available on the Internet. Obtaining structured information from these contents by hand has become virtually impossible. So, in recent years there has been an increase in the investigation of systems for automatic analysis and information extraction. Classi cation of documents by themes or categories is a way of relating content. However, documents can, likewise, be related by the entities they contain, being they people, places or organizations; moreover, extracting information on relations between the entities, the forms of interaction between documents become much richer as it will enable, for example, to list the documents that refer to a particular entity having practiced a speci c action and which entities have su ered that action. This paper proposes a system for identifying and extracting relations between entities present in a document. Relations are obtained from a semantic role labeller used in conjunction with named entity recognizer. Being applied to the Portuguese language, it was necessary to develop speci c resources for the language: a part-of-speech tagger and two corpora: one to be used with the POS-tagger and other with syntactic information for words, phrases and sentences to be used by the semantic role labeller. Although a preliminary semantic role labeller, experimentation shows that the system can achieve the proposed objective and identify relationships between entities. On the other hand, the creation of the refered resources will enrich the available Portuguese language set of tools that can be used in future work
URI:	http://hdl.handle.net/10174/11851
Type:	masterThesis
Appears in Collections:	BIB - Formação Avançada - Teses de Mestrado

Files in This Item:

File	Description	Size	Format
Extraccao_de_Relacoes_entre_Entidades_Mencionadas.pdf		1.51 MB	Adobe PDF	View/Open

Serviços de Ciência e Cooperação - Universidade de Évora