Please use this identifier to cite or link to this item: http://hdl.handle.net/10174/29323

Title: Information extraction and representation from free text reports Isha Saxena
Authors: Saxena, Isha
Advisors: Quaresma, Paulo Miguel
Gonçalves, Teresa
Keywords: Information Extraction
Concept Extraction
Relation Extraction
Dictionary Matching
Rule Based Approach
Free Text Tagging
Extração de Informação
Extração de Conceito
Extração de relação
Correspondência de dicionário
Abordagem Baseada em Regras
Etiquetagem de texto livre
Issue Date: 18-Feb-2021
Publisher: Universidade de Évora
Abstract: The need for extracting specific information has increased drastically with the boost in digital-born documents. These documents majorly comprise of free text from which structured information can be extracted. The sources include, customer review reports, patient records, financial and legal documents, etc. The needs and applications for extracting specific information from free text are growing every moment, and new researches are emerging to mine contextual information in a way that is both highly efficient and convenient in its usage. This thesis work address to the problem of extracting specific information from free text, specifically for the domains who lack labeled data. First step in the development of an advanced information extraction system is to extract and represent structured information from unstructured natural language text. To accomplish this task, the thesis proposes a system for extracting and tagging domain specific information, as domain related entities / concepts, and relational phrases. The approaches comprise of dictionary matching for domain specific concept extraction, and rule based pattern matching for relation extraction and tagging the free text accordingly. The experiments were performed on Altice Labs’1 customer reports. The system achieved over 80% recall and 90% precision for both concept and relation extraction. The proposed domain-specific concept extraction module was compared with existing concept extraction platforms: Microsoft Concept Graph2 and DBpedia Spotlight3. The proposed model yielded high performance results then both the platforms; Sumário: Extração e representação de informações de relatórios de texto livre A necessidade de extrair informações específicas aumentou drasticamente com o aumento dos documentos de origem digital. Esses documentos consistem principalmente de texto livre do qual informações estruturadas podem ser extraídas. As fontes incluem relatórios de revisão de clientes, registos de pacientes, documentos financeiros e jurídicos, etc. As necessidades e aplicações para extrair informações específicas de texto livre estão crescendo a cada momento e novas pesquisas estão surgindo para extrair informações contextuais de uma forma altamente eficiente e conveniente em seu uso. Este trabalho aborda o problema da extração de informações específicas em texto livre, especificamente para os domínios que carecem de dados etiquetados. O primeiro passo no desenvolvimento de um sistema avançado de extração de informações é extrair e representar informações estruturadas de um texto de linguagem natural não estruturado. Para cumprir essa tarefa, a tese propõe um sistema para extrair e marcar informações específicas do domínio, como entidades / conceitos relacionados ao domínio e frases relacionais. As abordagens incluem correspondência de dicionário para extração de conceitos específico de domínio e correspondência de padrão baseada em regras para extração de relação e marcação de texto livre. As experiências foram realizados nos relatórios de clientes 4 da Altice Labs. O sistema atingiu mais de 80 % de recall e 90% de precisão para extração de conceito e relação. O módulo de extração de conceito específico de domínio proposto foi comparado com plataformas de extração de conceito existentes: Microsoft Concept Graph 5 e DBpedia Spotlight 6. O modelo proposto rendeu resultados de alto desempenho para ambas as plataformas.
URI: http://hdl.handle.net/10174/29323
Type: masterThesis
Appears in Collections:BIB - Formação Avançada - Teses de Mestrado

Files in This Item:

File Description SizeFormat
Mestrado-Engenharia_Informatica-Isha_Saxena.pdf2.57 MBAdobe PDFView/Open
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Dspace Dspace
DSpace Software, version 1.6.2 Copyright © 2002-2008 MIT and Hewlett-Packard - Feedback
UEvora B-On Curriculum DeGois