Anotações sobre Processamento de Linguagem Natural.
-
Alpaca Dataset in Portuguese: é um dataset com ~52,000 instruções geradas pelo modelo
text-davinci
, da OpenAI. Essas instruções podem ser utilizadas durante o fine-tuning de modelo generativos.- Disponível no huggingface.com
-
Microsoft Research Paraphrase Corpus in Portuguese - MRPC: Versão em Português do dataset MRPC, originalmente proposto no artigo. O dataset consiste em 5,801 pares de sentenças, com um rótulo que indica se as sentenças são paráfrases ou não.
- Disponível no huggingface.co
-
Brazilian Portuguese Sentiment Analysis Datasets
- Disponível no huggingface.co e kaggle
-
FakeWhatsApp.Br: um dataset em Português para detecção de FakeNews, publicado no artigo e baseado na dissertação de mestrado de Lucas Cabral. Os dados são de mensagens que circulavam em grupos do Whatsapp, durante a eleição de 2018. O dataset contém 5,284 mensagens, que foram classificadas como desinformação (1) e sem desinformação (0).
- Disponível no GitHub.com
Leitura recomendada: