Skip to content

Commit

Permalink
NAda
Browse files Browse the repository at this point in the history
  • Loading branch information
cayetanoguerra committed Nov 12, 2024
1 parent ac77027 commit c2a9c03
Show file tree
Hide file tree
Showing 6 changed files with 38,478 additions and 1 deletion.
Binary file modified .DS_Store
Binary file not shown.
Binary file modified ia/nbpy/nlp/Tema-05/.DS_Store
Binary file not shown.
12 changes: 11 additions & 1 deletion ia/nbpy/nlp/Tema-05/nb09.ipynb
Original file line number Diff line number Diff line change
Expand Up @@ -494,7 +494,17 @@
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"outputs": [
{
"name": "stderr",
"output_type": "stream",
"text": [
"wandb: Network error (ConnectionError), entering retry loop.\n",
"\u001b[34m\u001b[1mwandb\u001b[0m: Network error resolved after 0:11:26.707014, resuming normal operation.\n",
"wandb: Network error (ConnectionError), entering retry loop.\n"
]
}
],
"source": [
"from transformers import T5ForConditionalGeneration, TrainingArguments, Trainer\n",
"\n",
Expand Down
6 changes: 6 additions & 0 deletions ia/nbpy/nlp/Tema-05/nb10.ipynb
Original file line number Diff line number Diff line change
Expand Up @@ -67,6 +67,12 @@
" - El objetivo del modelo durante el entrenamiento es predecir los tokens originales de aquellos que han sido enmascarados o alterados.\n",
" - Esto enseña a BERT a entender el contexto y la relación entre las palabras en una secuencia.\n",
"\n",
"Durante el entrenamiento de BERT, solo los tokens seleccionados para predicción (aproximadamente el 15% de los tokens en cada secuencia de entrada) contribuyen al cálculo de la función de pérdida. Esto significa que el modelo únicamente calcula el error para estos tokens específicos, permitiéndole aprender a \"adivinar\" palabras en función de su contexto sin procesar cada token de la secuencia.\n",
"\n",
"Dentro de estos tokens seleccionados, algunos se reemplazan por el token [MASK], otros se sustituyen por una palabra aleatoria, y un pequeño porcentaje se deja sin cambios. Aunque estos tokens no se alteran, la diferencia clave es que el modelo sí intenta predecirlos como parte de los tokens seleccionados para la predicción. Esto contrasta con los tokens no seleccionados (aquellos que no se modifican ni se predicen), los cuales no participan en el cálculo de la pérdida y, por lo tanto, el modelo no tiene que aprender nada sobre ellos.\n",
"\n",
"Este enfoque, donde algunos tokens se dejan \"sin cambios\" pero aún participan en el entrenamiento, enseña al modelo a inferir palabras en su contexto sin depender exclusivamente de \"pistas\" explícitas de enmascaramiento, lo que mejora su capacidad para manejar el lenguaje en situaciones del mundo real.\n",
"\n",
"### **2. Next Sentence Prediction (NSP)**\n",
"\n",
"1. **Entendimiento de Relaciones entre Oraciones**:\n",
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -141,3 +141,6 @@ Holaaaaa
Holaaaaa
Holaaaaa
Holaaaaa
Holaaaaa
wandb: Network error (ConnectionError), entering retry loop.
wandb: Network error resolved after 0:11:26.707014, resuming normal operation.
Loading

0 comments on commit c2a9c03

Please sign in to comment.