FGV Digital Repository
    • português (Brasil)
    • English
    • español
      Visit:
    • FGV Digital Library
    • FGV Scientific Journals
  • English 
    • português (Brasil)
    • English
    • español
  • Login
View Item 
  •   DSpace Home
  • FGV EMAp - Escola de Matemática Aplicada
  • FGV EMAp - Dissertações, Mestrado em Modelagem Matemática
  • View Item
  •   DSpace Home
  • FGV EMAp - Escola de Matemática Aplicada
  • FGV EMAp - Dissertações, Mestrado em Modelagem Matemática
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Browse

All of DSpaceFGV Communities & CollectionsAuthorsAdvisorSubjectTitlesBy Issue DateKeywordsThis CollectionAuthorsAdvisorSubjectTitlesBy Issue DateKeywords

My Account

LoginRegister

Statistics

View Usage Statistics

Análise lexicográfica da produção acadêmica da Fiocruz: uma proposta de metodologia

Thumbnail
View/Open
JeffersonLima-Dissertação.pdf (1.791Mb)
Date
2016-09-09
Author
Lima, Jefferson da Costa
Advisor
Souza, Renato Rocha
Metadata
Show full item record
Abstract
With the objective to meet the health needs of the population, a huge amount of publications are generated each year. Scientific papers, thesis and dissertations become available digitally, but make them accessible to the user requires an understanding of the indexing process, which is usually made manually. This work proposes an experiment on the feasibility of automatically identify valid descriptors for the documents in the field of health. Are extracted n-grams of the texts and, after comparison with terms of vocabulary Health Sciences Descriptors (DeCS), are identified those who can act as descriptors for the works. We believe that this process can be applied to classification of document sets with deficiencies in their indexing and, even, in supporting the re-indexing processes, improving the precision and recall of the searches, and the possibility of establishing metrics of relevance.
 
Com o objetivo de atender às demandas de saúde da população, uma quantidade enorme de publicações são geradas a cada ano. Artigos científicos, teses e dissertações tornam-se digitalmente disponíveis, mas torná-los acessíveis aos usuário exige a compreensão do processo de indexação, que em geral é feito manualmente. O presente trabalho propõe um experimento sobre a viabilidade de identificar automaticamente descritores válidos para documentos do campo da saúde. São extraídos n-grams dos textos e, após comparação com termos do vocabulário Descritores em Ciências da Saúde (DeCS), são identificados aqueles que podem atuar como descritores para as obras. Acreditamos que este processo pode ser aplicado na classificação de conjuntos de documentos com deficiências na indexação e, até mesmo, no apoio a processos de reindexação, melhorando a precisão e a revocação das buscas, além da possibilidade de estabelecer métricas de relevância.
 
URI
http://hdl.handle.net/10438/17458
Collections
  • FGV EMAp - Dissertações, Mestrado em Modelagem Matemática [78]
Knowledge Areas
Matemática
Subject
Processamento da linguagem natural (Computação)
Mineração de dados (Computação)
Keyword
Processamento de linguagem natural
Mineração de textos
Descritores em ciências da saúde

DSpace software copyright © 2002-2016  DuraSpace
Contact Us | Send Feedback
Theme by 
@mire NV
 

 


DSpace software copyright © 2002-2016  DuraSpace
Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Import Metadata