FGV Digital Repository
    • português (Brasil)
    • English
    • español
      Visit:
    • FGV Digital Library
    • FGV Scientific Journals
  • English 
    • português (Brasil)
    • English
    • español
  • Login
View Item 
  •   DSpace Home
  • FGV EMAp - Escola de Matemática Aplicada
  • FGV EMAp - Dissertações, Mestrado em Modelagem Matemática
  • View Item
  •   DSpace Home
  • FGV EMAp - Escola de Matemática Aplicada
  • FGV EMAp - Dissertações, Mestrado em Modelagem Matemática
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Browse

All of DSpaceFGV Communities & CollectionsAuthorsAdvisorSubjectTitlesBy Issue DateKeywordsThis CollectionAuthorsAdvisorSubjectTitlesBy Issue DateKeywords

My Account

LoginRegister

Statistics

View Usage Statistics

Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts

Thumbnail
View/Open
MSc dissertation (2.141Mb)
Date
2020-09-30
Author
Tessarollo, Alexandre
Advisor
Rademaker, Alexandre
Metadata
Show full item record
Abstract
O conhecimento humano tem sido armazenado, transferido e crescido através de meios escritos. A habilidade humana de acessar essa fonte de conhecimento é notadamente a principal razão pela qual conseguimos avançar o nosso entendimento coletivo ao longo de milênios. Há cerca de 25 anos as nossas tecnologias para coletar, armazenar e disseminar vastas quantidades de informação superaram as nossas tecnologias para agrupar e analisar tais dados. O Processamento de Linguagem Natural (NLP, na sigla em inglês) aborda esta questão. O dia a dia já é beneficiado pelo NLP, com aplicações que vão de filtros de spam a chatbots (ainda que limitados) e assistentes pessoais de inteligência artificial via comandos de voz. Todavia, no que tange à linguagem técnica, o NLP ainda possui deficiências. Isto é particularmente verdadeiro para o domínio de Óleo & Gás, no qual informação é o recurso mais precioso, base para decisões envolvendo bilhões de dólares. Ainda que existam inúmeros relatórios, artigos científicos, documentos e afins, tal conhecimento permanece inalcançável devido a limitações de NLP aplicado a domínio. É nossa hipótese que a expansão de um recurso léxico, a WordNet, terá efeito escalável particularmente em desambiguação de palavras (WSD, Word Sense Disambiguation) e para o NLP como um todo em documentos de Óleo e Gás. Para verificar esta hipótese, estendemos a WordNet com 377 novos conceitos (synsets), 558 novas formas lexicais (palavras) e 948 novas relações envolvendo tais synsets e palavras. Tal extensão foca em duas das referências mais comumente mencionadas em documentos de Óleo & Gás: Tempo Geológico e Litologia (ramo da geologia dedicado ao estudo de rochas). Nós fazemos tal extensão da WordNet tanto “verticalmente” a partir da Princeton WordNet original na Open WordNet for English (OWN-EN) como “horizontalmente” através da tradução e adaptação de tais esforços para a Open WordNet for Portuguese (OWN-PT). Por fim comparamos a saída do UKB (algoritimo de WSD) antes e depois de tal extensão. Ambas as WordNets (parta inglês e para português) estão disponíveis online como iniciativas open-source.
 
Human knowledge has been stored, transferred and built upon by written means. The human ability to tap into this source is by far the main reason why we’ve been able to advance our collective understanding. Over a quarter century ago, our technologies for collecting, storing, and disseminating vast amounts of information had gotten ahead of our technologies for collating and analyzing it. Natural Language Processing (NLP) tackles this issue. The everyday life already benefits from NLP, with applications ranging from spam filtering to (limited) support chatbots and artificial intelligence assistants interacting through voice commands. When it comes to technical language, however, NLP has some shortcomings. This is particularly true for the Oil&Gas domain, where information is the most precious resource, one that supports decisions worth billions of dollars. Even though there are numerous reports, papers, documents and alike, such knowledge remains untapped due to NLP domain limitations. It is our hypothesis that expanding a lexical resource, namely the WordNet, will have a scalable effect particularly on Word Sense Disambiguation (WSD) and on the overall NLP for Oil&Gas domain documents. To verify this we extended the WordNet with 377 new concepts (synsets), 558 new lexical forms (words) and 948 new relations (pointers) between such word and/or synsets. Such extension is focused on two of the most common references mentioned in Oil&Gas documents: Geological Time and Lithology (branch of geology devoted to rocks). We perform such extension both “vertically” from the original Princeton WordNet in English into the Open WordNet for English (OWN-EN) and “horizontally” by translating and adapting such effort to the Open Word- Net for Portuguese (OWN-PT). We then compare the outputs of the WSD algorithm UKB before and after such extension. Both WordNet extensions (English and Portuguese) are available as online open-source initiatives.
 
URI
https://hdl.handle.net/10438/29846
Collections
  • FGV EMAp - Dissertações, Mestrado em Modelagem Matemática [79]
Knowledge Areas
Matemática
Tecnologia
Subject
Processamento da linguagem natural (Computação)
Petróleo e gás
WordNet
Keyword
WordNet
Domain extension
Rock
Lithology
Geological time
Geology
NLP
SUMO
Oil and gas
Gas
Oil
Petroleum
Geoscience
Portuguese
English
International Chronostratigraphic Chart

DSpace software copyright © 2002-2016  DuraSpace
Contact Us | Send Feedback
Theme by 
@mire NV
 

 


DSpace software copyright © 2002-2016  DuraSpace
Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Import Metadata