NAda

cayetanoguerra · Nov 12, 2024 · c2a9c03 · c2a9c03
1 parent ac77027
commit c2a9c03
Show file tree

Hide file tree

Showing 6 changed files with 38,478 additions and 1 deletion.
diff --git a/.DS_Store b/.DS_Store
diff --git a/ia/nbpy/nlp/Tema-05/.DS_Store b/ia/nbpy/nlp/Tema-05/.DS_Store
diff --git a/ia/nbpy/nlp/Tema-05/nb09.ipynb b/ia/nbpy/nlp/Tema-05/nb09.ipynb
@@ -494,7 +494,17 @@
    "cell_type": "code",
    "execution_count": null,
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "wandb: Network error (ConnectionError), entering retry loop.\n",
+      "\u001b[34m\u001b[1mwandb\u001b[0m: Network error resolved after 0:11:26.707014, resuming normal operation.\n",
+      "wandb: Network error (ConnectionError), entering retry loop.\n"
+     ]
+    }
+   ],
    "source": [
     "from transformers import T5ForConditionalGeneration, TrainingArguments, Trainer\n",
     "\n",

diff --git a/ia/nbpy/nlp/Tema-05/nb10.ipynb b/ia/nbpy/nlp/Tema-05/nb10.ipynb
@@ -67,6 +67,12 @@
     "   - El objetivo del modelo durante el entrenamiento es predecir los tokens originales de aquellos que han sido enmascarados o alterados.\n",
     "   - Esto enseña a BERT a entender el contexto y la relación entre las palabras en una secuencia.\n",
     "\n",
+    "Durante el entrenamiento de BERT, solo los tokens seleccionados para predicción (aproximadamente el 15% de los tokens en cada secuencia de entrada) contribuyen al cálculo de la función de pérdida. Esto significa que el modelo únicamente calcula el error para estos tokens específicos, permitiéndole aprender a \"adivinar\" palabras en función de su contexto sin procesar cada token de la secuencia.\n",
+    "\n",
+    "Dentro de estos tokens seleccionados, algunos se reemplazan por el token [MASK], otros se sustituyen por una palabra aleatoria, y un pequeño porcentaje se deja sin cambios. Aunque estos tokens no se alteran, la diferencia clave es que el modelo sí intenta predecirlos como parte de los tokens seleccionados para la predicción. Esto contrasta con los tokens no seleccionados (aquellos que no se modifican ni se predicen), los cuales no participan en el cálculo de la pérdida y, por lo tanto, el modelo no tiene que aprender nada sobre ellos.\n",
+    "\n",
+    "Este enfoque, donde algunos tokens se dejan \"sin cambios\" pero aún participan en el entrenamiento, enseña al modelo a inferir palabras en su contexto sin depender exclusivamente de \"pistas\" explícitas de enmascaramiento, lo que mejora su capacidad para manejar el lenguaje en situaciones del mundo real.\n",
+    "\n",
     "### **2. Next Sentence Prediction (NSP)**\n",
     "\n",
     "1. **Entendimiento de Relaciones entre Oraciones**:\n",

diff --git a/ia/nbpy/nlp/Tema-05/wandb/run-20241105_113416-n2rmcoxw/files/output.log b/ia/nbpy/nlp/Tema-05/wandb/run-20241105_113416-n2rmcoxw/files/output.log
@@ -141,3 +141,6 @@ Holaaaaa
 Holaaaaa
 Holaaaaa
 Holaaaaa
+Holaaaaa
+wandb: Network error (ConnectionError), entering retry loop.
+[34m[1mwandb[39m[22m: Network error resolved after 0:11:26.707014, resuming normal operation.