Please use this identifier to cite or link to this item:
http://hdl.handle.net/10174/29323
|
Title: | Information extraction and representation from free text reports Isha Saxena |
Authors: | Saxena, Isha |
Advisors: | Quaresma, Paulo Miguel Gonçalves, Teresa |
Keywords: | Information Extraction Concept Extraction Relation Extraction Dictionary Matching Rule Based Approach Free Text Tagging Extração de Informação Extração de Conceito Extração de relação Correspondência de dicionário Abordagem Baseada em Regras Etiquetagem de texto livre |
Issue Date: | 18-Feb-2021 |
Publisher: | Universidade de Évora |
Abstract: | The need for extracting specific information has increased drastically with
the boost in digital-born documents. These documents majorly comprise of
free text from which structured information can be extracted. The sources
include, customer review reports, patient records, financial and legal documents,
etc. The needs and applications for extracting specific information
from free text are growing every moment, and new researches are emerging
to mine contextual information in a way that is both highly efficient and
convenient in its usage.
This thesis work address to the problem of extracting specific information
from free text, specifically for the domains who lack labeled data. First
step in the development of an advanced information extraction system is
to extract and represent structured information from unstructured natural
language text. To accomplish this task, the thesis proposes a system for extracting
and tagging domain specific information, as domain related entities
/ concepts, and relational phrases. The approaches comprise of dictionary
matching for domain specific concept extraction, and rule based pattern
matching for relation extraction and tagging the free text accordingly. The
experiments were performed on Altice Labs’1 customer reports. The system
achieved over 80% recall and 90% precision for both concept and relation
extraction.
The proposed domain-specific concept extraction module was compared with
existing concept extraction platforms: Microsoft Concept Graph2 and DBpedia
Spotlight3. The proposed model yielded high performance results then
both the platforms; Sumário:
Extração e representação de informações de
relatórios de texto livre
A necessidade de extrair informações específicas aumentou drasticamente
com o aumento dos documentos de origem digital. Esses documentos consistem
principalmente de texto livre do qual informações estruturadas podem
ser extraídas. As fontes incluem relatórios de revisão de clientes, registos de
pacientes, documentos financeiros e jurídicos, etc. As necessidades e aplicações
para extrair informações específicas de texto livre estão crescendo a
cada momento e novas pesquisas estão surgindo para extrair informações
contextuais de uma forma altamente eficiente e conveniente em seu uso.
Este trabalho aborda o problema da extração de informações específicas em
texto livre, especificamente para os domínios que carecem de dados etiquetados.
O primeiro passo no desenvolvimento de um sistema avançado de
extração de informações é extrair e representar informações estruturadas de
um texto de linguagem natural não estruturado. Para cumprir essa tarefa,
a tese propõe um sistema para extrair e marcar informações específicas do
domínio, como entidades / conceitos relacionados ao domínio e frases relacionais.
As abordagens incluem correspondência de dicionário para extração
de conceitos específico de domínio e correspondência de padrão baseada em
regras para extração de relação e marcação de texto livre. As experiências
foram realizados nos relatórios de clientes 4 da Altice Labs. O sistema atingiu
mais de 80 % de recall e 90% de precisão para extração de conceito e relação.
O módulo de extração de conceito específico de domínio proposto foi comparado
com plataformas de extração de conceito existentes: Microsoft Concept
Graph 5 e DBpedia Spotlight 6. O modelo proposto rendeu resultados
de alto desempenho para ambas as plataformas. |
URI: | http://hdl.handle.net/10174/29323 |
Type: | masterThesis |
Appears in Collections: | BIB - Formação Avançada - Teses de Mestrado
|
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
|