Repositório Digital de Publicações Científicas: Information extraction and representation from free text reports Isha Saxena


Sign on to:
	Login
	My DSpace authorized users
	Edit Profile
	Receive email updates

Browse
	Communities & Collections
	Issue Date
	Author
	Title
	Subject

Helps
	Regulamento RDPC
	Depósito RDPC
	Faq's RDPC

	Integração CV DeGóis
	Workshop Open Access

	Newsletter Open Access


	About Dspace
	DSpace Software

Repositorio Digital de Publicacoes Cientificas da Universidade de Evora

/ Biblioteca Geral / BIB - Formação Avançada - Teses de Mestrado /

Please use this identifier to cite or link to this item: http://hdl.handle.net/10174/29323

Title:	Information extraction and representation from free text reports Isha Saxena
Authors:	Saxena, Isha
Advisors:	Quaresma, Paulo Miguel Gonçalves, Teresa
Keywords:	Information Extraction Concept Extraction Relation Extraction Dictionary Matching Rule Based Approach Free Text Tagging Extração de Informação Extração de Conceito Extração de relação Correspondência de dicionário Abordagem Baseada em Regras Etiquetagem de texto livre
Issue Date:	18-Feb-2021
Publisher:	Universidade de Évora
Abstract:	The need for extracting specific information has increased drastically with the boost in digital-born documents. These documents majorly comprise of free text from which structured information can be extracted. The sources include, customer review reports, patient records, financial and legal documents, etc. The needs and applications for extracting specific information from free text are growing every moment, and new researches are emerging to mine contextual information in a way that is both highly efficient and convenient in its usage. This thesis work address to the problem of extracting specific information from free text, specifically for the domains who lack labeled data. First step in the development of an advanced information extraction system is to extract and represent structured information from unstructured natural language text. To accomplish this task, the thesis proposes a system for extracting and tagging domain specific information, as domain related entities / concepts, and relational phrases. The approaches comprise of dictionary matching for domain specific concept extraction, and rule based pattern matching for relation extraction and tagging the free text accordingly. The experiments were performed on Altice Labs’1 customer reports. The system achieved over 80% recall and 90% precision for both concept and relation extraction. The proposed domain-specific concept extraction module was compared with existing concept extraction platforms: Microsoft Concept Graph2 and DBpedia Spotlight3. The proposed model yielded high performance results then both the platforms; Sumário: Extração e representação de informações de relatórios de texto livre A necessidade de extrair informações específicas aumentou drasticamente com o aumento dos documentos de origem digital. Esses documentos consistem principalmente de texto livre do qual informações estruturadas podem ser extraídas. As fontes incluem relatórios de revisão de clientes, registos de pacientes, documentos financeiros e jurídicos, etc. As necessidades e aplicações para extrair informações específicas de texto livre estão crescendo a cada momento e novas pesquisas estão surgindo para extrair informações contextuais de uma forma altamente eficiente e conveniente em seu uso. Este trabalho aborda o problema da extração de informações específicas em texto livre, especificamente para os domínios que carecem de dados etiquetados. O primeiro passo no desenvolvimento de um sistema avançado de extração de informações é extrair e representar informações estruturadas de um texto de linguagem natural não estruturado. Para cumprir essa tarefa, a tese propõe um sistema para extrair e marcar informações específicas do domínio, como entidades / conceitos relacionados ao domínio e frases relacionais. As abordagens incluem correspondência de dicionário para extração de conceitos específico de domínio e correspondência de padrão baseada em regras para extração de relação e marcação de texto livre. As experiências foram realizados nos relatórios de clientes 4 da Altice Labs. O sistema atingiu mais de 80 % de recall e 90% de precisão para extração de conceito e relação. O módulo de extração de conceito específico de domínio proposto foi comparado com plataformas de extração de conceito existentes: Microsoft Concept Graph 5 e DBpedia Spotlight 6. O modelo proposto rendeu resultados de alto desempenho para ambas as plataformas.
URI:	http://hdl.handle.net/10174/29323
Type:	masterThesis
Appears in Collections:	BIB - Formação Avançada - Teses de Mestrado

Files in This Item:

File	Description	Size	Format
Mestrado-Engenharia_Informatica-Isha_Saxena.pdf		2.57 MB	Adobe PDF	View/Open

Serviços de Ciência e Cooperação - Universidade de Évora