Please use this identifier to cite or link to this item:
http://hdl.handle.net/10174/15176
|
Title: | Sumarização automática de texto |
Authors: | Rodrigues, Luís Filipe Romão |
Advisors: | Quaresma, Paulo |
Issue Date: | 2011 |
Publisher: | Universidade de Évora |
Abstract: | Sumarizar é uma actividade frequentemente realizada pelo ser humano. Quando
se narra um evento, em geral, é costume fazer um sumário do que aconteceu e não
fazer uma narração completa e detalhada.
A sumarização automática de texto é uma técnica que utiliza um programa de
computador para gerar estruturas sintéticas que contêm as informações mais relevantes
de um textos. O texto original é passado ao programa sendo transformado
numa versão condensada. Esta área das ciências da computação tem a sua origem
no final dos anos 50 e tem vindo a ser investigada desde então. O aumento exponencial
de informação disponível hoje devido principalmente à Internet, coloca a
sumarização automática de novo em voga. Assim, é essencial o desenvolvimento
de novas metodologias e técnicas de forma a ser possível a rápida consulta e fácil
acesso a toda informação disponível ao ser humano.
A dissertação proposta apresenta o estudo de uma abordagem e a implementação
de um sistema simbólico (em oposição à abordagem estatística) de sumarização
automática para a língua portuguesa. Os sistema utiliza a teoria da estrutura retórica
para o reconhecimento de relações entre segmentos, fazendo uso do modelo
desenvolvido no sistema AuTema-Dis (Leal, 2008). Uma arquitectura modular em
quatro etapas que processa um texto desde a sua forma original até a geração do
sumário final.
No final deste trabalho é feita uma avaliação que compara a performance dos
vários sistemas de sumarização para a língua portuguesa. É feita uma avaliação
qualitativa do sistema desenvolvido neste projecto recorrendo a juízes humanos
falantes nativos do português de Portugal; ABSTRACT: Summarization is an activity often performed by humans. When an event is
narrated, in general, it is customary to make a summary of what happened not
detailed narration.
Automatic text summarization is a technique that uses a computer program to
generate synthetic structures that contain the most relevant information of a text.
The original text is used as input for the computer program and is transformed
into a condensed version. This area of computer science has its origins in the late
50’s and has been continuously researched since then. The exponential growth of
information available due mainly to the Internet, puts the automatic summarization
once again in vogue. It is therefore essential to develop new methodologies
and techniques so as to be possible an easy access to all information available to
humans.
This thesis addresses an approach and the implementation of a symbolic system
(as opposed to statistical approach) for automatic summarization for the Portuguese
language. The system uses the theory of rhetorical structure for recognizing
relationships between segments, using also the model developed in AuTema-
Dis (Leal, 2008). This system defines a modular four steps architecture which
processes a text from its original form into the final summary.
At the end of this thesis there is a evaluation that compares the performance
leading systems for automatic summarization for the Portuguese language. The
system presented in this thesis is evaluated resorting to human judges (all native
speakers of Portuguese from Portugal). |
URI: | http://hdl.handle.net/10174/15176 |
Type: | masterThesis |
Appears in Collections: | BIB - Formação Avançada - Teses de Mestrado
|
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
|