Processamento de Linguagem Natural (PLN)

Anotações sobre Processamento de Linguagem Natural.

Datasets

Alpaca Dataset in Portuguese: é um dataset com ~52,000 instruções geradas pelo modelo text-davinci, da OpenAI. Essas instruções podem ser utilizadas durante o fine-tuning de modelo generativos.
- Disponível no huggingface.com
Microsoft Research Paraphrase Corpus in Portuguese - MRPC: Versão em Português do dataset MRPC, originalmente proposto no artigo. O dataset consiste em 5,801 pares de sentenças, com um rótulo que indica se as sentenças são paráfrases ou não.
- Disponível no huggingface.co
Brazilian Portuguese Sentiment Analysis Datasets
- Disponível no huggingface.co e kaggle
FakeWhatsApp.Br: um dataset em Português para detecção de FakeNews, publicado no artigo e baseado na dissertação de mestrado de Lucas Cabral. Os dados são de mensagens que circulavam em grupos do Whatsapp, durante a eleição de 2018. O dataset contém 5,284 mensagens, que foram classificadas como desinformação (1) e sem desinformação (0).
- Disponível no GitHub.com

Leitura recomendada:

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
.vscode		.vscode
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md