Skip to content

Anotações sobre Processamento de Linguagem Natural

License

Notifications You must be signed in to change notification settings

erickrribeiro/pln

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Processamento de Linguagem Natural (PLN)

Anotações sobre Processamento de Linguagem Natural.

Datasets

  • Alpaca Dataset in Portuguese: é um dataset com ~52,000 instruções geradas pelo modelo text-davinci, da OpenAI. Essas instruções podem ser utilizadas durante o fine-tuning de modelo generativos.

  • Microsoft Research Paraphrase Corpus in Portuguese - MRPC: Versão em Português do dataset MRPC, originalmente proposto no artigo. O dataset consiste em 5,801 pares de sentenças, com um rótulo que indica se as sentenças são paráfrases ou não.

  • Brazilian Portuguese Sentiment Analysis Datasets

  • FakeWhatsApp.Br: um dataset em Português para detecção de FakeNews, publicado no artigo e baseado na dissertação de mestrado de Lucas Cabral. Os dados são de mensagens que circulavam em grupos do Whatsapp, durante a eleição de 2018. O dataset contém 5,284 mensagens, que foram classificadas como desinformação (1) e sem desinformação (0).

Livros

Leitura recomendada:

Cursos

About

Anotações sobre Processamento de Linguagem Natural

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published