From 412ccfc1806a0319947e27e06d483c45098c7002 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Hynek=20Kydl=C3=AD=C4=8Dek?= <kydlicek.hynek@gmail.com>
Date: Mon, 9 Dec 2024 18:56:07 +0100
Subject: [PATCH 01/12] Adds Global MLMU (#426)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

* add global mmlu + zulu

* add global mmlu + zulu

* fix translatin literals

* add unk for global mmlu

* Update src/lighteval/tasks/multilingual/tasks.py

Co-authored-by: Clémentine Fourrier <22726840+clefourrier@users.noreply.github.com>

---------

Co-authored-by: Clémentine Fourrier <22726840+clefourrier@users.noreply.github.com>
---
 src/lighteval/tasks/multilingual/tasks.py     | 87 +++++++++++++++++++
 .../templates/utils/translation_literals.py   |  1 +
 src/lighteval/utils/language.py               |  1 +
 3 files changed, 89 insertions(+)

diff --git a/src/lighteval/tasks/multilingual/tasks.py b/src/lighteval/tasks/multilingual/tasks.py
index c788871ba..93d8cea40 100644
--- a/src/lighteval/tasks/multilingual/tasks.py
+++ b/src/lighteval/tasks/multilingual/tasks.py
@@ -1707,6 +1707,92 @@
     ]
 ]
 
+# Translated MMLU using both professional and non-professional translators. Contains tags for cultural sensitivity.
+# CA: Cultural Agnostic
+# CS: Cultural Specific
+# UNK: Not annotated
+# ALL: All of the above
+# https://huggingface.co/papers/2412.03304
+global_mmlu_tasks = [
+    LightevalTaskConfig(
+        name=f"global_mmlu_{sensitivity_label.lower()}_{language.value}_{formulation.name.lower()}:{subset}",
+        prompt_function=get_mcq_prompt_function(
+            language,
+            lambda line: {
+                "question": line["question"],
+                "choices": [line["option_a"], line["option_b"], line["option_c"], line["option_d"]],
+                "gold_idx": LETTER_INDICES.index(line["answer"]),
+            },
+            formulation=formulation,
+        ),
+        suite=("lighteval",),
+        hf_repo="CohereForAI/Global-MMLU",
+        hf_subset=standardize_tag(language.value),
+        evaluation_splits=("test",),
+        few_shots_split="dev",
+        hf_filter=partial(
+            lambda subset, sensitivity_label, x: x["subject"].lower() == subset
+            and (
+                sensitivity_label == "ALL" or sensitivity_label in x["cultural_sensitivity_label"].replace("-", "UNK")
+            ),
+            subset,
+            sensitivity_label,
+        ),
+        metric=get_metrics_for_formulation(
+            formulation,
+            [
+                loglikelihood_acc_metric(normalization=LogProbTokenNorm()),
+                loglikelihood_acc_metric(normalization=LogProbCharNorm()),
+                loglikelihood_acc_metric(normalization=LogProbPMINorm()),
+            ],
+        ),
+    )
+    for subset in MMLU_SUBSETS
+    for language in [
+        Language.AMHARIC,
+        Language.ARABIC,
+        Language.BENGALI,
+        Language.CHINESE,
+        Language.CZECH,
+        Language.GERMAN,
+        Language.ENGLISH,
+        Language.SPANISH,
+        Language.FRENCH,
+        Language.HEBREW,
+        Language.HINDI,
+        Language.INDONESIAN,
+        Language.ITALIAN,
+        Language.JAPANESE,
+        Language.KOREAN,
+        Language.MALAY,
+        Language.DUTCH,
+        Language.NORWEGIAN,
+        Language.POLISH,
+        Language.PORTUGUESE,
+        Language.ROMANIAN,
+        Language.RUSSIAN,
+        Language.SERBIAN,
+        Language.SWEDISH,
+        Language.SWAHILI,
+        Language.TAMIL,
+        Language.TELUGU,
+        Language.THAI,
+        Language.TURKISH,
+        Language.UKRAINIAN,
+        Language.URDU,
+        Language.VIETNAMESE,
+        Language.YORUBA,
+        Language.ZULU,
+    ]
+    for formulation in [
+        MCFFormulation(),
+        CFFormulation(),
+        HybridFormulation(),
+    ]
+    for sensitivity_label in ["ALL", "CA", "CS", "UNK"]
+]
+
+
 # There are only these subsets in the African MMLU
 AFRI_MMLU_SUBSETS = [
     "elementary_mathematics",
@@ -2088,6 +2174,7 @@
         *arabic_mmlu_tasks,
         *turkish_mmlu_tasks,
         *afri_mmlu_tasks,
+        *global_mmlu_tasks,
     ]
 )
 
diff --git a/src/lighteval/tasks/templates/utils/translation_literals.py b/src/lighteval/tasks/templates/utils/translation_literals.py
index 186d64485..441b5a7b6 100644
--- a/src/lighteval/tasks/templates/utils/translation_literals.py
+++ b/src/lighteval/tasks/templates/utils/translation_literals.py
@@ -1007,4 +1007,5 @@ def __getattribute__(self, name: str) -> str:
     Language.WESTERN_FRISIAN: TranslationLiterals(language=Language.WESTERN_FRISIAN),
     Language.YIDDISH: TranslationLiterals(language=Language.YIDDISH),
     Language.YORUBA: TranslationLiterals(language=Language.YORUBA),
+    Language.ZULU: TranslationLiterals(language=Language.ZULU),
 }
diff --git a/src/lighteval/utils/language.py b/src/lighteval/utils/language.py
index e6e53984e..d59908b01 100644
--- a/src/lighteval/utils/language.py
+++ b/src/lighteval/utils/language.py
@@ -122,6 +122,7 @@ class Language(Enum):
     WAR = "war"
     SHAN = "shn"
     UDMURT = "udm"
+    ZULU = "zul"
 
 
 # This mapping was created for beleble, it converts iso_639_3 individual codes to iso_639_3 macro codes

From 9315f0d4d893050fce4e8b30839330052f4d15d5 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Cl=C3=A9mentine=20Fourrier?=
 <22726840+clefourrier@users.noreply.github.com>
Date: Tue, 10 Dec 2024 14:49:19 +0100
Subject: [PATCH 02/12] add configs with their models (#421)

* add configs with their models

* fix tests

* doc update

* doc update

* fix path
---
 docs/source/_toctree.yml                      |   4 +-
 .../source/package_reference/model_config.mdx |  10 -
 docs/source/package_reference/models.mdx      |  32 +-
 src/lighteval/main_accelerate.py              |   4 +-
 src/lighteval/main_endpoint.py                |   2 +-
 src/lighteval/main_vllm.py                    |   2 +-
 .../models/{ => dummy}/dummy_model.py         |   7 +-
 .../models/{ => endpoints}/endpoint_model.py  |  57 +++-
 .../models/{ => endpoints}/openai_model.py    |   8 +-
 .../models/{ => endpoints}/tgi_model.py       |  10 +-
 src/lighteval/models/model_config.py          | 314 ------------------
 src/lighteval/models/model_loader.py          |  25 +-
 .../models/{ => nanotron}/nanotron_model.py   |   2 +-
 .../{ => transformers}/adapter_model.py       |  24 +-
 .../models/{ => transformers}/base_model.py   | 162 ++++++++-
 .../models/{ => transformers}/delta_model.py  |  23 +-
 src/lighteval/models/{ => vllm}/vllm_model.py |  26 +-
 src/lighteval/tasks/lighteval_task.py         |   2 +-
 tests/models/test_abstract_model.py           |   3 +-
 tests/models/test_base_model.py               |   3 +-
 20 files changed, 342 insertions(+), 378 deletions(-)
 delete mode 100644 docs/source/package_reference/model_config.mdx
 rename src/lighteval/models/{ => dummy}/dummy_model.py (97%)
 rename src/lighteval/models/{ => endpoints}/endpoint_model.py (91%)
 rename src/lighteval/models/{ => endpoints}/openai_model.py (98%)
 rename src/lighteval/models/{ => endpoints}/tgi_model.py (94%)
 delete mode 100644 src/lighteval/models/model_config.py
 rename src/lighteval/models/{ => nanotron}/nanotron_model.py (99%)
 rename src/lighteval/models/{ => transformers}/adapter_model.py (80%)
 rename src/lighteval/models/{ => transformers}/base_model.py (87%)
 rename src/lighteval/models/{ => transformers}/delta_model.py (81%)
 rename src/lighteval/models/{ => vllm}/vllm_model.py (92%)

diff --git a/docs/source/_toctree.yml b/docs/source/_toctree.yml
index 3daa40529..9ad55466a 100644
--- a/docs/source/_toctree.yml
+++ b/docs/source/_toctree.yml
@@ -33,9 +33,7 @@
     - local: package_reference/evaluation_tracker
       title: EvaluationTracker
     - local: package_reference/models
-      title: Models
-    - local: package_reference/model_config
-      title: ModelConfig
+      title: Models and ModelConfigs
     - local: package_reference/pipeline
       title: Pipeline
     title: Main classes
diff --git a/docs/source/package_reference/model_config.mdx b/docs/source/package_reference/model_config.mdx
deleted file mode 100644
index e2ecceb4d..000000000
--- a/docs/source/package_reference/model_config.mdx
+++ /dev/null
@@ -1,10 +0,0 @@
-# ModelConfig
-
-[[autodoc]] models.model_config.BaseModelConfig
-
-[[autodoc]] models.model_config.AdapterModelConfig
-[[autodoc]] models.model_config.DeltaModelConfig
-[[autodoc]] models.model_config.InferenceEndpointModelConfig
-[[autodoc]] models.model_config.InferenceModelConfig
-[[autodoc]] models.model_config.TGIModelConfig
-[[autodoc]] models.model_config.VLLMModelConfig
diff --git a/docs/source/package_reference/models.mdx b/docs/source/package_reference/models.mdx
index 34b5b2739..096ce7be3 100644
--- a/docs/source/package_reference/models.mdx
+++ b/docs/source/package_reference/models.mdx
@@ -4,24 +4,38 @@
 ### LightevalModel
 [[autodoc]] models.abstract_model.LightevalModel
 
+
 ## Accelerate and Transformers Models
 ### BaseModel
-[[autodoc]] models.base_model.BaseModel
+[[autodoc]] models.transformers.base_model.BaseModelConfig
+[[autodoc]] models.transformers.base_model.BaseModel
+
 ### AdapterModel
-[[autodoc]] models.adapter_model.AdapterModel
+[[autodoc]] models.transformers.adapter_model.AdapterModelConfig
+[[autodoc]] models.transformers.adapter_model.AdapterModel
+
 ### DeltaModel
-[[autodoc]] models.delta_model.DeltaModel
+[[autodoc]] models.transformers.delta_model.DeltaModelConfig
+[[autodoc]] models.transformers.delta_model.DeltaModel
 
-## Inference Endpoints and TGI Models
+## Endpoints-based Models
 ### InferenceEndpointModel
-[[autodoc]] models.endpoint_model.InferenceEndpointModel
-### ModelClient
-[[autodoc]] models.tgi_model.ModelClient
+[[autodoc]] models.endpoints.endpoint_model.InferenceEndpointModelConfig
+[[autodoc]] models.endpoints.endpoint_model.InferenceModelConfig
+[[autodoc]] models.endpoints.endpoint_model.InferenceEndpointModel
+
+### TGI ModelClient
+[[autodoc]] models.endpoints.tgi_model.TGIModelConfig
+[[autodoc]] models.endpoints.tgi_model.ModelClient
+
+### Open AI Models
+[[autodoc]] models.endpoints.openai_model.OpenAIClient
 
 ## Nanotron Model
 ### NanotronLightevalModel
-[[autodoc]] models.nanotron_model.NanotronLightevalModel
+[[autodoc]] models.nanotron.nanotron_model.NanotronLightevalModel
 
 ## VLLM Model
 ### VLLMModel
-[[autodoc]] models.vllm_model.VLLMModel
+[[autodoc]] models.vllm.vllm_model.VLLMModelConfig
+[[autodoc]] models.vllm.vllm_model.VLLMModel
diff --git a/src/lighteval/main_accelerate.py b/src/lighteval/main_accelerate.py
index e7d18c809..27e4141f5 100644
--- a/src/lighteval/main_accelerate.py
+++ b/src/lighteval/main_accelerate.py
@@ -107,7 +107,9 @@ def accelerate(  # noqa C901
     from accelerate import Accelerator, InitProcessGroupKwargs
 
     from lighteval.logging.evaluation_tracker import EvaluationTracker
-    from lighteval.models.model_config import AdapterModelConfig, BaseModelConfig, BitsAndBytesConfig, DeltaModelConfig
+    from lighteval.models.transformers.adapter_model import AdapterModelConfig
+    from lighteval.models.transformers.base_model import BaseModelConfig, BitsAndBytesConfig
+    from lighteval.models.transformers.delta_model import DeltaModelConfig
     from lighteval.pipeline import EnvConfig, ParallelismManager, Pipeline, PipelineParameters
 
     accelerator = Accelerator(kwargs_handlers=[InitProcessGroupKwargs(timeout=timedelta(seconds=3000))])
diff --git a/src/lighteval/main_endpoint.py b/src/lighteval/main_endpoint.py
index 5069c414f..d17da4325 100644
--- a/src/lighteval/main_endpoint.py
+++ b/src/lighteval/main_endpoint.py
@@ -201,7 +201,7 @@ def inference_endpoint(
     import yaml
 
     from lighteval.logging.evaluation_tracker import EvaluationTracker
-    from lighteval.models.model_config import (
+    from lighteval.models.endpoints.endpoint_model import (
         InferenceEndpointModelConfig,
     )
     from lighteval.pipeline import EnvConfig, ParallelismManager, Pipeline, PipelineParameters
diff --git a/src/lighteval/main_vllm.py b/src/lighteval/main_vllm.py
index 4bd1681d0..078000da5 100644
--- a/src/lighteval/main_vllm.py
+++ b/src/lighteval/main_vllm.py
@@ -89,7 +89,7 @@ def vllm(
     Evaluate models using vllm as backend.
     """
     from lighteval.logging.evaluation_tracker import EvaluationTracker
-    from lighteval.models.model_config import VLLMModelConfig
+    from lighteval.models.vllm.vllm_model import VLLMModelConfig
     from lighteval.pipeline import EnvConfig, ParallelismManager, Pipeline, PipelineParameters
 
     TOKEN = os.getenv("HF_TOKEN")
diff --git a/src/lighteval/models/dummy_model.py b/src/lighteval/models/dummy/dummy_model.py
similarity index 97%
rename from src/lighteval/models/dummy_model.py
rename to src/lighteval/models/dummy/dummy_model.py
index b9fa60e0d..ff89656be 100644
--- a/src/lighteval/models/dummy_model.py
+++ b/src/lighteval/models/dummy/dummy_model.py
@@ -23,12 +23,12 @@
 # inspired by https://github.com/EleutherAI/lm-evaluation-harness/blob/main/lm_eval/models/dummy.py
 
 import random
+from dataclasses import dataclass
 from typing import Optional
 
 from transformers import AutoTokenizer
 
 from lighteval.models.abstract_model import LightevalModel, ModelInfo
-from lighteval.models.model_config import DummyModelConfig
 from lighteval.models.model_output import GenerativeResponse, LoglikelihoodResponse, LoglikelihoodSingleTokenResponse
 from lighteval.tasks.requests import (
     GreedyUntilRequest,
@@ -39,6 +39,11 @@
 from lighteval.utils.utils import EnvConfig
 
 
+@dataclass
+class DummyModelConfig:
+    seed: int = 42
+
+
 class DummyModel(LightevalModel):
     """Dummy model to generate random baselines."""
 
diff --git a/src/lighteval/models/endpoint_model.py b/src/lighteval/models/endpoints/endpoint_model.py
similarity index 91%
rename from src/lighteval/models/endpoint_model.py
rename to src/lighteval/models/endpoints/endpoint_model.py
index bd82f058a..112338964 100644
--- a/src/lighteval/models/endpoint_model.py
+++ b/src/lighteval/models/endpoints/endpoint_model.py
@@ -24,7 +24,8 @@
 import logging
 import re
 import time
-from typing import Coroutine, List, Optional, Union
+from dataclasses import dataclass
+from typing import Coroutine, Dict, List, Optional, Union
 
 import requests
 import torch
@@ -47,7 +48,6 @@
 
 from lighteval.data import GenerativeTaskDataset, LoglikelihoodDataset
 from lighteval.models.abstract_model import LightevalModel, ModelInfo
-from lighteval.models.model_config import InferenceEndpointModelConfig, InferenceModelConfig
 from lighteval.models.model_output import GenerativeResponse, LoglikelihoodResponse, LoglikelihoodSingleTokenResponse
 from lighteval.tasks.requests import (
     GreedyUntilRequest,
@@ -74,6 +74,59 @@
 ]
 
 
+@dataclass
+class InferenceModelConfig:
+    model: str
+    add_special_tokens: bool = True
+
+
+@dataclass
+class InferenceEndpointModelConfig:
+    endpoint_name: str = None
+    model_name: str = None
+    should_reuse_existing: bool = False
+    accelerator: str = "gpu"
+    model_dtype: str = None  # if empty, we use the default
+    vendor: str = "aws"
+    region: str = "us-east-1"  # this region has the most hardware options available
+    instance_size: str = None  # if none, we autoscale
+    instance_type: str = None  # if none, we autoscale
+    framework: str = "pytorch"
+    endpoint_type: str = "protected"
+    add_special_tokens: bool = True
+    revision: str = "main"
+    namespace: str = None  # The namespace under which to launch the endopint. Defaults to the current user's namespace
+    image_url: str = None
+    env_vars: dict = None
+
+    def __post_init__(self):
+        # xor operator, one is None but not the other
+        if (self.instance_size is None) ^ (self.instance_type is None):
+            raise ValueError(
+                "When creating an inference endpoint, you need to specify explicitely both instance_type and instance_size, or none of them for autoscaling."
+            )
+
+        if not (self.endpoint_name is None) ^ int(self.model_name is None):
+            raise ValueError("You need to set either endpoint_name or model_name (but not both).")
+
+    def get_dtype_args(self) -> Dict[str, str]:
+        if self.model_dtype is None:
+            return {}
+        model_dtype = self.model_dtype.lower()
+        if model_dtype in ["awq", "eetq", "gptq"]:
+            return {"QUANTIZE": model_dtype}
+        if model_dtype == "8bit":
+            return {"QUANTIZE": "bitsandbytes"}
+        if model_dtype == "4bit":
+            return {"QUANTIZE": "bitsandbytes-nf4"}
+        if model_dtype in ["bfloat16", "float16"]:
+            return {"DTYPE": model_dtype}
+        return {}
+
+    def get_custom_env_vars(self) -> Dict[str, str]:
+        return {k: str(v) for k, v in self.env_vars.items()} if self.env_vars else {}
+
+
 class InferenceEndpointModel(LightevalModel):
     """InferenceEndpointModels can be used both with the free inference client, or with inference
     endpoints, which will use text-generation-inference to deploy your model for the duration of the evaluation.
diff --git a/src/lighteval/models/openai_model.py b/src/lighteval/models/endpoints/openai_model.py
similarity index 98%
rename from src/lighteval/models/openai_model.py
rename to src/lighteval/models/endpoints/openai_model.py
index 12fbeb95c..b2ca25285 100644
--- a/src/lighteval/models/openai_model.py
+++ b/src/lighteval/models/endpoints/openai_model.py
@@ -24,13 +24,14 @@
 import os
 import time
 from concurrent.futures import ThreadPoolExecutor
+from dataclasses import dataclass
 from typing import Optional
 
 from tqdm import tqdm
 
 from lighteval.data import GenerativeTaskDataset, LoglikelihoodDataset
 from lighteval.models.abstract_model import LightevalModel
-from lighteval.models.endpoint_model import ModelInfo
+from lighteval.models.endpoints.endpoint_model import ModelInfo
 from lighteval.models.model_output import (
     GenerativeResponse,
     LoglikelihoodResponse,
@@ -58,6 +59,11 @@
     logging.getLogger("httpx").setLevel(logging.ERROR)
 
 
+@dataclass
+class OpenAIModelConfig:
+    model: str
+
+
 class OpenAIClient(LightevalModel):
     _DEFAULT_MAX_LENGTH: int = 4096
 
diff --git a/src/lighteval/models/tgi_model.py b/src/lighteval/models/endpoints/tgi_model.py
similarity index 94%
rename from src/lighteval/models/tgi_model.py
rename to src/lighteval/models/endpoints/tgi_model.py
index 99d7bd100..d95609a50 100644
--- a/src/lighteval/models/tgi_model.py
+++ b/src/lighteval/models/endpoints/tgi_model.py
@@ -21,13 +21,14 @@
 # SOFTWARE.
 
 import asyncio
+from dataclasses import dataclass
 from typing import Coroutine, Optional
 
 import requests
 from huggingface_hub import TextGenerationInputGrammarType, TextGenerationOutput
 from transformers import AutoTokenizer
 
-from lighteval.models.endpoint_model import InferenceEndpointModel, ModelInfo
+from lighteval.models.endpoints.endpoint_model import InferenceEndpointModel, ModelInfo
 from lighteval.utils.imports import NO_TGI_ERROR_MSG, is_tgi_available
 
 
@@ -44,6 +45,13 @@ def divide_chunks(array, n):
         yield array[i : i + n]
 
 
+@dataclass
+class TGIModelConfig:
+    inference_server_address: str
+    inference_server_auth: str
+    model_id: str
+
+
 # inherit from InferenceEndpointModel instead of LightevalModel since they both use the same interface, and only overwrite
 # the client functions, since they use a different client.
 class ModelClient(InferenceEndpointModel):
diff --git a/src/lighteval/models/model_config.py b/src/lighteval/models/model_config.py
deleted file mode 100644
index 1eda1e029..000000000
--- a/src/lighteval/models/model_config.py
+++ /dev/null
@@ -1,314 +0,0 @@
-# MIT License
-
-# Copyright (c) 2024 The HuggingFace Team
-
-# Permission is hereby granted, free of charge, to any person obtaining a copy
-# of this software and associated documentation files (the "Software"), to deal
-# in the Software without restriction, including without limitation the rights
-# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-# copies of the Software, and to permit persons to whom the Software is
-# furnished to do so, subject to the following conditions:
-
-# The above copyright notice and this permission notice shall be included in all
-# copies or substantial portions of the Software.
-
-# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-# SOFTWARE.
-
-import logging
-from dataclasses import dataclass
-from typing import Dict, Optional, Union
-
-import torch
-from transformers import AutoConfig, BitsAndBytesConfig, GPTQConfig, PretrainedConfig
-
-from lighteval.models.utils import _get_model_sha
-from lighteval.utils.imports import (
-    NO_AUTOGPTQ_ERROR_MSG,
-    NO_BNB_ERROR_MSG,
-    NO_PEFT_ERROR_MSG,
-    is_accelerate_available,
-    is_autogptq_available,
-    is_bnb_available,
-    is_peft_available,
-)
-from lighteval.utils.utils import EnvConfig, boolstring_to_bool
-
-
-logger = logging.getLogger(__name__)
-
-if is_accelerate_available():
-    from accelerate import Accelerator
-
-
-@dataclass
-class BaseModelConfig:
-    """
-    Base configuration class for models.
-
-    Attributes:
-        pretrained (str):
-            HuggingFace Hub model ID name or the path to a pre-trained
-            model to load. This is effectively the `pretrained_model_name_or_path`
-            argument of `from_pretrained` in the HuggingFace `transformers` API.
-        accelerator (Accelerator): accelerator to use for model training.
-        tokenizer (Optional[str]): HuggingFace Hub tokenizer ID that will be
-            used for tokenization.
-        multichoice_continuations_start_space (Optional[bool]): Whether to add a
-            space at the start of each continuation in multichoice generation.
-            For example, context: "What is the capital of France?" and choices: "Paris", "London".
-            Will be tokenized as: "What is the capital of France? Paris" and "What is the capital of France? London".
-            True adds a space, False strips a space, None does nothing
-        pairwise_tokenization (bool): Whether to tokenize the context and continuation as separately or together.
-        subfolder (Optional[str]): The subfolder within the model repository.
-        revision (str): The revision of the model.
-        batch_size (int): The batch size for model training.
-        max_gen_toks (Optional[int]): The maximum number of tokens to generate.
-        max_length (Optional[int]): The maximum length of the generated output.
-        add_special_tokens (bool, optional, defaults to True): Whether to add special tokens to the input sequences.
-           If `None`, the default value will be set to `True` for seq2seq models (e.g. T5) and
-            `False` for causal models.
-        model_parallel (bool, optional, defaults to False):
-            True/False: force to use or not the `accelerate` library to load a large
-            model across multiple devices.
-            Default: None which corresponds to comparing the number of processes with
-                the number of GPUs. If it's smaller => model-parallelism, else not.
-        dtype (Union[str, torch.dtype], optional, defaults to None):):
-            Converts the model weights to `dtype`, if specified. Strings get
-            converted to `torch.dtype` objects (e.g. `float16` -> `torch.float16`).
-            Use `dtype="auto"` to derive the type from the model's weights.
-        device (Union[int, str]): device to use for model training.
-        quantization_config (Optional[BitsAndBytesConfig]): quantization
-            configuration for the model, manually provided to load a normally floating point
-            model at a quantized precision. Needed for 4-bit and 8-bit precision.
-        trust_remote_code (bool): Whether to trust remote code during model
-            loading.
-
-    Methods:
-        __post_init__(): Performs post-initialization checks on the configuration.
-        _init_configs(model_name, env_config): Initializes the model configuration.
-        init_configs(env_config): Initializes the model configuration using the environment configuration.
-        get_model_sha(): Retrieves the SHA of the model.
-
-    """
-
-    pretrained: str
-    accelerator: "Accelerator" = None
-    tokenizer: Optional[str] = None
-    multichoice_continuations_start_space: Optional[bool] = None
-    pairwise_tokenization: bool = False
-    subfolder: Optional[str] = None
-    revision: str = "main"
-    batch_size: int = -1
-    max_gen_toks: Optional[int] = 256
-    max_length: Optional[int] = None
-    add_special_tokens: bool = True
-    model_parallel: Optional[bool] = None
-    dtype: Optional[Union[str, torch.dtype]] = None
-    device: Union[int, str] = "cuda"
-    quantization_config: Optional[BitsAndBytesConfig] = None
-    trust_remote_code: bool = False
-    use_chat_template: bool = False
-    compile: bool = False
-
-    def __post_init__(self):
-        # Making sure this parameter is a boolean
-        self.multichoice_continuations_start_space = boolstring_to_bool(self.multichoice_continuations_start_space)
-
-        if self.multichoice_continuations_start_space is not None:
-            if self.multichoice_continuations_start_space:
-                logger.info(
-                    "You set `multichoice_continuations_start_space` to true. This will force multichoice continuations to use a starting space"
-                )
-            else:
-                logger.info(
-                    "You set `multichoice_continuations_start_space` to false. This will remove a leading space from multichoice continuations, if present."
-                )
-
-        self.model_parallel = boolstring_to_bool(self.model_parallel)
-        self.compile = boolstring_to_bool(self.compile)
-
-        if self.quantization_config is not None and not is_bnb_available():
-            raise ImportError(NO_BNB_ERROR_MSG)
-
-        if not isinstance(self.pretrained, str):
-            raise ValueError("Pretrained model name must be passed as string.")
-        if not isinstance(self.device, str):
-            raise ValueError("Current device must be passed as string.")
-
-    def _init_configs(self, model_name: str, env_config: EnvConfig) -> PretrainedConfig:
-        revision = self.revision
-        if self.subfolder:
-            revision = f"{self.revision}/{self.subfolder}"
-        auto_config = AutoConfig.from_pretrained(
-            model_name,
-            revision=revision,
-            trust_remote_code=self.trust_remote_code,
-            cache_dir=env_config.cache_dir,
-            token=env_config.token,
-        )
-
-        # Gathering the model's automatic quantization config, if available
-        try:
-            model_auto_quantization_config = auto_config.quantization_config
-            logger.info("An automatic quantization config was found in the model's config. Using it to load the model")
-        except (AttributeError, KeyError):
-            model_auto_quantization_config = None
-
-        if model_auto_quantization_config is not None:
-            if self.quantization_config is not None:
-                # We don't load models quantized by default with a different user provided conf
-                raise ValueError("You manually requested quantization on a model already quantized!")
-
-            # We add the quantization to the model params we store
-            if model_auto_quantization_config["quant_method"] == "gptq":
-                if not is_autogptq_available():
-                    raise ImportError(NO_AUTOGPTQ_ERROR_MSG)
-                auto_config.quantization_config["use_exllama"] = None
-                self.quantization_config = GPTQConfig(**auto_config.quantization_config, disable_exllama=True)
-            elif model_auto_quantization_config["quant_method"] == "bitsandbytes":
-                if not is_bnb_available():
-                    raise ImportError(NO_BNB_ERROR_MSG)
-                self.quantization_config = BitsAndBytesConfig(**auto_config.quantization_config)
-
-        return auto_config
-
-    def init_configs(self, env_config: EnvConfig) -> PretrainedConfig:
-        return self._init_configs(self.pretrained, env_config=env_config)
-
-    def get_model_sha(self):
-        return _get_model_sha(repo_id=self.pretrained, revision=self.revision)
-
-
-@dataclass
-class DeltaModelConfig(BaseModelConfig):
-    # Delta models look at the pretrained (= the delta weights) for the tokenizer and model config
-    base_model: str = None
-
-    def __post_init__(self):
-        self.revision = "main"
-
-        if not self.base_model:  # must have a default value bc of dataclass inheritance, but can't actually be None
-            raise ValueError("The base_model argument must not be null for a delta model config")
-
-        return super().__post_init__()
-
-    def get_model_sha(self):
-        return _get_model_sha(repo_id=self.pretrained, revision="main")
-
-
-@dataclass
-class AdapterModelConfig(BaseModelConfig):
-    # Adapter models have the specificity that they look at the base model (= the parent) for the tokenizer and config
-    base_model: str = None
-
-    def __post_init__(self):
-        if not is_peft_available():
-            raise ImportError(NO_PEFT_ERROR_MSG)
-
-        if not self.base_model:  # must have a default value bc of dataclass inheritance, but can't actually be None
-            raise ValueError("The base_model argument must not be null for an adapter model config")
-
-        return super().__post_init__()
-
-    def init_configs(self, env_config: EnvConfig):
-        return self._init_configs(self.base_model, env_config)
-
-
-@dataclass
-class VLLMModelConfig:
-    pretrained: str
-    gpu_memory_utilisation: float = 0.9  # lower this if you are running out of memory
-    revision: str = "main"  # revision of the model
-    dtype: str | None = None
-    tensor_parallel_size: int = 1  # how many GPUs to use for tensor parallelism
-    pipeline_parallel_size: int = 1  # how many GPUs to use for pipeline parallelism
-    data_parallel_size: int = 1  # how many GPUs to use for data parallelism
-    max_model_length: int | None = None  # maximum length of the model, ussually infered automatically. reduce this if you encouter OOM issues, 4096 is usually enough
-    swap_space: int = 4  # CPU swap space size (GiB) per GPU.
-    seed: int = 1234
-    trust_remote_code: bool = False
-    use_chat_template: bool = False
-    add_special_tokens: bool = True
-    multichoice_continuations_start_space: bool = (
-        True  # whether to add a space at the start of each continuation in multichoice generation
-    )
-    pairwise_tokenization: bool = False  # whether to tokenize the context and continuation separately or together.
-
-    subfolder: Optional[str] = None
-    temperature: float = 0.6  # will be used for multi sampling tasks, for tasks requiring no sampling, this will be ignored and set to 0.
-
-
-@dataclass
-class OpenAIModelConfig:
-    model: str
-
-
-@dataclass
-class TGIModelConfig:
-    inference_server_address: str
-    inference_server_auth: str
-    model_id: str
-
-
-@dataclass
-class DummyModelConfig:
-    seed: int = 42
-
-
-@dataclass
-class InferenceModelConfig:
-    model: str
-    add_special_tokens: bool = True
-
-
-@dataclass
-class InferenceEndpointModelConfig:
-    endpoint_name: str = None
-    model_name: str = None
-    should_reuse_existing: bool = False
-    accelerator: str = "gpu"
-    model_dtype: str = None  # if empty, we use the default
-    vendor: str = "aws"
-    region: str = "us-east-1"  # this region has the most hardware options available
-    instance_size: str = None  # if none, we autoscale
-    instance_type: str = None  # if none, we autoscale
-    framework: str = "pytorch"
-    endpoint_type: str = "protected"
-    add_special_tokens: bool = True
-    revision: str = "main"
-    namespace: str = None  # The namespace under which to launch the endopint. Defaults to the current user's namespace
-    image_url: str = None
-    env_vars: dict = None
-
-    def __post_init__(self):
-        # xor operator, one is None but not the other
-        if (self.instance_size is None) ^ (self.instance_type is None):
-            raise ValueError(
-                "When creating an inference endpoint, you need to specify explicitely both instance_type and instance_size, or none of them for autoscaling."
-            )
-
-        if not (self.endpoint_name is None) ^ int(self.model_name is None):
-            raise ValueError("You need to set either endpoint_name or model_name (but not both).")
-
-    def get_dtype_args(self) -> Dict[str, str]:
-        if self.model_dtype is None:
-            return {}
-        model_dtype = self.model_dtype.lower()
-        if model_dtype in ["awq", "eetq", "gptq"]:
-            return {"QUANTIZE": model_dtype}
-        if model_dtype == "8bit":
-            return {"QUANTIZE": "bitsandbytes"}
-        if model_dtype == "4bit":
-            return {"QUANTIZE": "bitsandbytes-nf4"}
-        if model_dtype in ["bfloat16", "float16"]:
-            return {"DTYPE": model_dtype}
-        return {}
-
-    def get_custom_env_vars(self) -> Dict[str, str]:
-        return {k: str(v) for k, v in self.env_vars.items()} if self.env_vars else {}
diff --git a/src/lighteval/models/model_loader.py b/src/lighteval/models/model_loader.py
index 1a409746c..b0817be4a 100644
--- a/src/lighteval/models/model_loader.py
+++ b/src/lighteval/models/model_loader.py
@@ -23,25 +23,18 @@
 import logging
 from typing import Union
 
-from lighteval.models.adapter_model import AdapterModel
-from lighteval.models.base_model import BaseModel
-from lighteval.models.delta_model import DeltaModel
-from lighteval.models.dummy_model import DummyModel
-from lighteval.models.endpoint_model import InferenceEndpointModel
-from lighteval.models.model_config import (
-    AdapterModelConfig,
-    BaseModelConfig,
-    DeltaModelConfig,
-    DummyModelConfig,
+from lighteval.models.dummy.dummy_model import DummyModel, DummyModelConfig
+from lighteval.models.endpoints.endpoint_model import (
+    InferenceEndpointModel,
     InferenceEndpointModelConfig,
     InferenceModelConfig,
-    OpenAIModelConfig,
-    TGIModelConfig,
-    VLLMModelConfig,
 )
-from lighteval.models.openai_model import OpenAIClient
-from lighteval.models.tgi_model import ModelClient
-from lighteval.models.vllm_model import VLLMModel
+from lighteval.models.endpoints.openai_model import OpenAIClient, OpenAIModelConfig
+from lighteval.models.endpoints.tgi_model import ModelClient, TGIModelConfig
+from lighteval.models.transformers.adapter_model import AdapterModel, AdapterModelConfig
+from lighteval.models.transformers.base_model import BaseModel, BaseModelConfig
+from lighteval.models.transformers.delta_model import DeltaModel, DeltaModelConfig
+from lighteval.models.vllm.vllm_model import VLLMModel, VLLMModelConfig
 from lighteval.utils.imports import (
     NO_TGI_ERROR_MSG,
     NO_VLLM_ERROR_MSG,
diff --git a/src/lighteval/models/nanotron_model.py b/src/lighteval/models/nanotron/nanotron_model.py
similarity index 99%
rename from src/lighteval/models/nanotron_model.py
rename to src/lighteval/models/nanotron/nanotron_model.py
index 21b605040..b7e9b1a5d 100644
--- a/src/lighteval/models/nanotron_model.py
+++ b/src/lighteval/models/nanotron/nanotron_model.py
@@ -42,13 +42,13 @@
     LoglikelihoodDataset,
     LoglikelihoodSingleTokenDataset,
 )
-from lighteval.models.base_model import LightevalModel, ModelInfo
 from lighteval.models.model_output import (
     Batch,
     GenerativeResponse,
     LoglikelihoodResponse,
     LoglikelihoodSingleTokenResponse,
 )
+from lighteval.models.transformers.base_model import LightevalModel, ModelInfo
 from lighteval.tasks.requests import (
     GreedyUntilRequest,
     LoglikelihoodRequest,
diff --git a/src/lighteval/models/adapter_model.py b/src/lighteval/models/transformers/adapter_model.py
similarity index 80%
rename from src/lighteval/models/adapter_model.py
rename to src/lighteval/models/transformers/adapter_model.py
index 24de80f40..449c2c1a8 100644
--- a/src/lighteval/models/adapter_model.py
+++ b/src/lighteval/models/transformers/adapter_model.py
@@ -22,14 +22,14 @@
 
 import logging
 from contextlib import nullcontext
+from dataclasses import dataclass
 
 import torch
 from transformers import AutoModelForCausalLM, PreTrainedTokenizer
 
-from lighteval.models.base_model import BaseModel
-from lighteval.models.model_config import AdapterModelConfig
+from lighteval.models.transformers.base_model import BaseModel, BaseModelConfig
 from lighteval.models.utils import _get_dtype
-from lighteval.utils.imports import is_peft_available
+from lighteval.utils.imports import NO_PEFT_ERROR_MSG, is_peft_available
 from lighteval.utils.utils import EnvConfig
 
 
@@ -39,6 +39,24 @@
     from peft import PeftModel
 
 
+@dataclass
+class AdapterModelConfig(BaseModelConfig):
+    # Adapter models have the specificity that they look at the base model (= the parent) for the tokenizer and config
+    base_model: str = None
+
+    def __post_init__(self):
+        if not is_peft_available():
+            raise ImportError(NO_PEFT_ERROR_MSG)
+
+        if not self.base_model:  # must have a default value bc of dataclass inheritance, but can't actually be None
+            raise ValueError("The base_model argument must not be null for an adapter model config")
+
+        return super().__post_init__()
+
+    def init_configs(self, env_config: EnvConfig):
+        return self._init_configs(self.base_model, env_config)
+
+
 class AdapterModel(BaseModel):
     def _create_auto_tokenizer(self, config: AdapterModelConfig, env_config: EnvConfig) -> PreTrainedTokenizer:
         # By default, we look at the model config for the model stored in `base_model`
diff --git a/src/lighteval/models/base_model.py b/src/lighteval/models/transformers/base_model.py
similarity index 87%
rename from src/lighteval/models/base_model.py
rename to src/lighteval/models/transformers/base_model.py
index fedc56a5c..9b815d2b0 100644
--- a/src/lighteval/models/base_model.py
+++ b/src/lighteval/models/transformers/base_model.py
@@ -22,6 +22,7 @@
 
 import logging
 import os
+from dataclasses import dataclass
 from typing import Optional, Tuple, Union
 
 import torch
@@ -30,12 +31,18 @@
 from torch.nn.utils.rnn import pad_sequence
 from torch.utils.data import DataLoader
 from tqdm import tqdm
-from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
+from transformers import (
+    AutoConfig,
+    AutoModelForCausalLM,
+    AutoTokenizer,
+    BitsAndBytesConfig,
+    GPTQConfig,
+    PretrainedConfig,
+)
 from transformers.models.auto.modeling_auto import MODEL_FOR_CAUSAL_LM_MAPPING_NAMES
 
 from lighteval.data import GenerativeTaskDataset, LoglikelihoodDataset, LoglikelihoodSingleTokenDataset
 from lighteval.models.abstract_model import LightevalModel, ModelInfo
-from lighteval.models.model_config import BaseModelConfig
 from lighteval.models.model_output import (
     Batch,
     GenerativeMultiturnResponse,
@@ -43,7 +50,7 @@
     LoglikelihoodResponse,
     LoglikelihoodSingleTokenResponse,
 )
-from lighteval.models.utils import _get_dtype, _simplify_name, batched
+from lighteval.models.utils import _get_dtype, _get_model_sha, _simplify_name, batched
 from lighteval.tasks.requests import (
     GreedyUntilMultiTurnRequest,
     GreedyUntilRequest,
@@ -52,9 +59,15 @@
     LoglikelihoodSingleTokenRequest,
     Request,
 )
-from lighteval.utils.imports import is_accelerate_available
+from lighteval.utils.imports import (
+    NO_AUTOGPTQ_ERROR_MSG,
+    NO_BNB_ERROR_MSG,
+    is_accelerate_available,
+    is_autogptq_available,
+    is_bnb_available,
+)
 from lighteval.utils.parallelism import find_executable_batch_size
-from lighteval.utils.utils import EnvConfig, as_list
+from lighteval.utils.utils import EnvConfig, as_list, boolstring_to_bool
 
 
 logger = logging.getLogger(__name__)
@@ -69,6 +82,145 @@
 STARTING_BATCH_SIZE = 512
 
 
+@dataclass
+class BaseModelConfig:
+    """
+    Base configuration class for models.
+
+    Attributes:
+        pretrained (str):
+            HuggingFace Hub model ID name or the path to a pre-trained
+            model to load. This is effectively the `pretrained_model_name_or_path`
+            argument of `from_pretrained` in the HuggingFace `transformers` API.
+        accelerator (Accelerator): accelerator to use for model training.
+        tokenizer (Optional[str]): HuggingFace Hub tokenizer ID that will be
+            used for tokenization.
+        multichoice_continuations_start_space (Optional[bool]): Whether to add a
+            space at the start of each continuation in multichoice generation.
+            For example, context: "What is the capital of France?" and choices: "Paris", "London".
+            Will be tokenized as: "What is the capital of France? Paris" and "What is the capital of France? London".
+            True adds a space, False strips a space, None does nothing
+        pairwise_tokenization (bool): Whether to tokenize the context and continuation as separately or together.
+        subfolder (Optional[str]): The subfolder within the model repository.
+        revision (str): The revision of the model.
+        batch_size (int): The batch size for model training.
+        max_gen_toks (Optional[int]): The maximum number of tokens to generate.
+        max_length (Optional[int]): The maximum length of the generated output.
+        add_special_tokens (bool, optional, defaults to True): Whether to add special tokens to the input sequences.
+           If `None`, the default value will be set to `True` for seq2seq models (e.g. T5) and
+            `False` for causal models.
+        model_parallel (bool, optional, defaults to False):
+            True/False: force to use or not the `accelerate` library to load a large
+            model across multiple devices.
+            Default: None which corresponds to comparing the number of processes with
+                the number of GPUs. If it's smaller => model-parallelism, else not.
+        dtype (Union[str, torch.dtype], optional, defaults to None):):
+            Converts the model weights to `dtype`, if specified. Strings get
+            converted to `torch.dtype` objects (e.g. `float16` -> `torch.float16`).
+            Use `dtype="auto"` to derive the type from the model's weights.
+        device (Union[int, str]): device to use for model training.
+        quantization_config (Optional[BitsAndBytesConfig]): quantization
+            configuration for the model, manually provided to load a normally floating point
+            model at a quantized precision. Needed for 4-bit and 8-bit precision.
+        trust_remote_code (bool): Whether to trust remote code during model
+            loading.
+
+    Methods:
+        __post_init__(): Performs post-initialization checks on the configuration.
+        _init_configs(model_name, env_config): Initializes the model configuration.
+        init_configs(env_config): Initializes the model configuration using the environment configuration.
+        get_model_sha(): Retrieves the SHA of the model.
+
+    """
+
+    pretrained: str
+    accelerator: "Accelerator" = None
+    tokenizer: Optional[str] = None
+    multichoice_continuations_start_space: Optional[bool] = None
+    pairwise_tokenization: bool = False
+    subfolder: Optional[str] = None
+    revision: str = "main"
+    batch_size: int = -1
+    max_gen_toks: Optional[int] = 256
+    max_length: Optional[int] = None
+    add_special_tokens: bool = True
+    model_parallel: Optional[bool] = None
+    dtype: Optional[Union[str, torch.dtype]] = None
+    device: Union[int, str] = "cuda"
+    quantization_config: Optional[BitsAndBytesConfig] = None
+    trust_remote_code: bool = False
+    use_chat_template: bool = False
+    compile: bool = False
+
+    def __post_init__(self):
+        # Making sure this parameter is a boolean
+        self.multichoice_continuations_start_space = boolstring_to_bool(self.multichoice_continuations_start_space)
+
+        if self.multichoice_continuations_start_space is not None:
+            if self.multichoice_continuations_start_space:
+                logger.info(
+                    "You set `multichoice_continuations_start_space` to true. This will force multichoice continuations to use a starting space"
+                )
+            else:
+                logger.info(
+                    "You set `multichoice_continuations_start_space` to false. This will remove a leading space from multichoice continuations, if present."
+                )
+
+        self.model_parallel = boolstring_to_bool(self.model_parallel)
+        self.compile = boolstring_to_bool(self.compile)
+
+        if self.quantization_config is not None and not is_bnb_available():
+            raise ImportError(NO_BNB_ERROR_MSG)
+
+        if not isinstance(self.pretrained, str):
+            raise ValueError("Pretrained model name must be passed as string.")
+        if not isinstance(self.device, str):
+            raise ValueError("Current device must be passed as string.")
+
+    def _init_configs(self, model_name: str, env_config: EnvConfig) -> PretrainedConfig:
+        revision = self.revision
+        if self.subfolder:
+            revision = f"{self.revision}/{self.subfolder}"
+        auto_config = AutoConfig.from_pretrained(
+            model_name,
+            revision=revision,
+            trust_remote_code=self.trust_remote_code,
+            cache_dir=env_config.cache_dir,
+            token=env_config.token,
+        )
+
+        # Gathering the model's automatic quantization config, if available
+        try:
+            model_auto_quantization_config = auto_config.quantization_config
+            logger.info("An automatic quantization config was found in the model's config. Using it to load the model")
+        except (AttributeError, KeyError):
+            model_auto_quantization_config = None
+
+        if model_auto_quantization_config is not None:
+            if self.quantization_config is not None:
+                # We don't load models quantized by default with a different user provided conf
+                raise ValueError("You manually requested quantization on a model already quantized!")
+
+            # We add the quantization to the model params we store
+            if model_auto_quantization_config["quant_method"] == "gptq":
+                if not is_autogptq_available():
+                    raise ImportError(NO_AUTOGPTQ_ERROR_MSG)
+                auto_config.quantization_config["use_exllama"] = None
+                self.quantization_config = GPTQConfig(**auto_config.quantization_config, disable_exllama=True)
+            elif model_auto_quantization_config["quant_method"] == "bitsandbytes":
+                if not is_bnb_available():
+                    raise ImportError(NO_BNB_ERROR_MSG)
+                self.quantization_config = BitsAndBytesConfig(**auto_config.quantization_config)
+
+        return auto_config
+
+    def init_configs(self, env_config: EnvConfig) -> PretrainedConfig:
+        return self._init_configs(self.pretrained, env_config=env_config)
+
+    def get_model_sha(self):
+        return _get_model_sha(repo_id=self.pretrained, revision=self.revision)
+
+
 class BaseModel(LightevalModel):
     def __init__(
         self,
diff --git a/src/lighteval/models/delta_model.py b/src/lighteval/models/transformers/delta_model.py
similarity index 81%
rename from src/lighteval/models/delta_model.py
rename to src/lighteval/models/transformers/delta_model.py
index 9aa8c01d5..20780f1e7 100644
--- a/src/lighteval/models/delta_model.py
+++ b/src/lighteval/models/transformers/delta_model.py
@@ -22,20 +22,37 @@
 
 import logging
 from contextlib import nullcontext
+from dataclasses import dataclass
 
 import torch
 from tqdm import tqdm
 from transformers import AutoModelForCausalLM
 
-from lighteval.models.base_model import BaseModel
-from lighteval.models.model_config import DeltaModelConfig
-from lighteval.models.utils import _get_dtype
+from lighteval.models.transformers.base_model import BaseModel, BaseModelConfig
+from lighteval.models.utils import _get_dtype, _get_model_sha
 from lighteval.utils.utils import EnvConfig
 
 
 logger = logging.getLogger(__name__)
 
 
+@dataclass
+class DeltaModelConfig(BaseModelConfig):
+    # Delta models look at the pretrained (= the delta weights) for the tokenizer and model config
+    base_model: str = None
+
+    def __post_init__(self):
+        self.revision = "main"
+
+        if not self.base_model:  # must have a default value bc of dataclass inheritance, but can't actually be None
+            raise ValueError("The base_model argument must not be null for a delta model config")
+
+        return super().__post_init__()
+
+    def get_model_sha(self):
+        return _get_model_sha(repo_id=self.pretrained, revision="main")
+
+
 class DeltaModel(BaseModel):
     def _create_auto_model(
         self,
diff --git a/src/lighteval/models/vllm_model.py b/src/lighteval/models/vllm/vllm_model.py
similarity index 92%
rename from src/lighteval/models/vllm_model.py
rename to src/lighteval/models/vllm/vllm_model.py
index ecfe8fd8b..2d413807d 100644
--- a/src/lighteval/models/vllm_model.py
+++ b/src/lighteval/models/vllm/vllm_model.py
@@ -24,6 +24,7 @@
 import itertools
 import logging
 import os
+from dataclasses import dataclass
 from typing import Optional
 
 import torch
@@ -31,7 +32,6 @@
 
 from lighteval.data import GenerativeTaskDataset, LoglikelihoodDataset
 from lighteval.models.abstract_model import LightevalModel, ModelInfo
-from lighteval.models.model_config import VLLMModelConfig
 from lighteval.models.model_output import (
     GenerativeResponse,
     LoglikelihoodResponse,
@@ -66,6 +66,30 @@
 STARTING_BATCH_SIZE = 512
 
 
+@dataclass
+class VLLMModelConfig:
+    pretrained: str
+    gpu_memory_utilisation: float = 0.9  # lower this if you are running out of memory
+    revision: str = "main"  # revision of the model
+    dtype: str | None = None
+    tensor_parallel_size: int = 1  # how many GPUs to use for tensor parallelism
+    pipeline_parallel_size: int = 1  # how many GPUs to use for pipeline parallelism
+    data_parallel_size: int = 1  # how many GPUs to use for data parallelism
+    max_model_length: int | None = None  # maximum length of the model, ussually infered automatically. reduce this if you encouter OOM issues, 4096 is usually enough
+    swap_space: int = 4  # CPU swap space size (GiB) per GPU.
+    seed: int = 1234
+    trust_remote_code: bool = False
+    use_chat_template: bool = False
+    add_special_tokens: bool = True
+    multichoice_continuations_start_space: bool = (
+        True  # whether to add a space at the start of each continuation in multichoice generation
+    )
+    pairwise_tokenization: bool = False  # whether to tokenize the context and continuation separately or together.
+
+    subfolder: Optional[str] = None
+    temperature: float = 0.6  # will be used for multi sampling tasks, for tasks requiring no sampling, this will be ignored and set to 0.
+
+
 class VLLMModel(LightevalModel):
     def __init__(
         self,
diff --git a/src/lighteval/tasks/lighteval_task.py b/src/lighteval/tasks/lighteval_task.py
index 9d08ba124..58724242e 100644
--- a/src/lighteval/tasks/lighteval_task.py
+++ b/src/lighteval/tasks/lighteval_task.py
@@ -41,7 +41,7 @@
     apply_target_perplexity_metric,
 )
 from lighteval.metrics.metrics import Metric, MetricCategory, Metrics
-from lighteval.models.base_model import BaseModel
+from lighteval.models.transformers.base_model import BaseModel
 from lighteval.tasks.prompt_manager import PromptManager
 from lighteval.tasks.requests import (
     Doc,
diff --git a/tests/models/test_abstract_model.py b/tests/models/test_abstract_model.py
index a598bdc42..e7fc0172e 100644
--- a/tests/models/test_abstract_model.py
+++ b/tests/models/test_abstract_model.py
@@ -22,8 +22,7 @@
 
 from transformers import AutoTokenizer
 
-from lighteval.models.dummy_model import DummyModel
-from lighteval.models.model_config import DummyModelConfig
+from lighteval.models.dummy.dummy_model import DummyModel, DummyModelConfig
 from lighteval.utils.utils import EnvConfig
 
 
diff --git a/tests/models/test_base_model.py b/tests/models/test_base_model.py
index dac396f5d..4f26d2924 100644
--- a/tests/models/test_base_model.py
+++ b/tests/models/test_base_model.py
@@ -20,9 +20,8 @@
 # OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
 # SOFTWARE.
 
-from lighteval.models.base_model import BaseModel
-from lighteval.models.model_config import BaseModelConfig
 from lighteval.models.model_loader import load_model
+from lighteval.models.transformers.base_model import BaseModel, BaseModelConfig
 from lighteval.utils.utils import EnvConfig
 
 

From c0966cfd78629b1d1387fe4c94dfd226535ad75b Mon Sep 17 00:00:00 2001
From: Albert Villanova del Moral
 <8515462+albertvillanova@users.noreply.github.com>
Date: Tue, 10 Dec 2024 15:54:07 +0100
Subject: [PATCH 03/12] Add trufflehog secrets detection (#429)

---
 .github/workflows/trufflehog.yml | 19 +++++++++++++++++++
 1 file changed, 19 insertions(+)
 create mode 100644 .github/workflows/trufflehog.yml

diff --git a/.github/workflows/trufflehog.yml b/.github/workflows/trufflehog.yml
new file mode 100644
index 000000000..8ac08ad65
--- /dev/null
+++ b/.github/workflows/trufflehog.yml
@@ -0,0 +1,19 @@
+on:
+  push:
+
+name: Scan Secret Leaks
+
+permissions:
+  contents: read
+
+jobs:
+  trufflehog:
+    runs-on: ubuntu-latest
+    steps:
+    - name: Checkout code
+      uses: actions/checkout@v4
+      with:
+        fetch-depth: 0
+    - name: Secret Scanning
+      uses: trufflesecurity/trufflehog@main
+

From 075a26603e40c8ba31ce21e0019c6714cf32413b Mon Sep 17 00:00:00 2001
From: Albert Villanova del Moral
 <8515462+albertvillanova@users.noreply.github.com>
Date: Tue, 10 Dec 2024 17:11:58 +0100
Subject: [PATCH 04/12] Update docs about inference endpoints (#432)

* Delete type and rename model in endpoint docs

* Explain to pass either model_name or endpoint_name+reuse_existing

* Fix legacy instance type and size in docs

* Minor fix
---
 ...valuate-the-model-on-a-server-or-container.mdx | 15 +++++++--------
 examples/model_configs/endpoint_model.yaml        |  8 +++++---
 src/lighteval/models/endpoints/endpoint_model.py  |  2 +-
 3 files changed, 13 insertions(+), 12 deletions(-)

diff --git a/docs/source/evaluate-the-model-on-a-server-or-container.mdx b/docs/source/evaluate-the-model-on-a-server-or-container.mdx
index 0d9a7d127..fff5f777c 100644
--- a/docs/source/evaluate-the-model-on-a-server-or-container.mdx
+++ b/docs/source/evaluate-the-model-on-a-server-or-container.mdx
@@ -26,22 +26,22 @@ __configuration file example:__
 
 ```yaml
 model:
-  type: "endpoint"
   base_params:
-    endpoint_name: "llama-2-7B-lighteval" # needs to be lower case without special characters
-    model: "meta-llama/Llama-2-7b-hf"
+    # Pass either model_name, or endpoint_name and true reuse_existing
+    # endpoint_name: "llama-2-7B-lighteval" # needs to be lower case without special characters
+    # reuse_existing: true # defaults to false; if true, ignore all params in instance, and don't delete the endpoint after evaluation
+    model_name: "meta-llama/Llama-2-7b-hf"
     revision: "main"
     dtype: "float16" # can be any of "awq", "eetq", "gptq", "4bit' or "8bit" (will use bitsandbytes), "bfloat16" or "float16"
-    reuse_existing: false # if true, ignore all params in instance, and don't delete the endpoint after evaluation
   instance:
     accelerator: "gpu"
     region: "eu-west-1"
     vendor: "aws"
-    instance_size: "medium"
-    instance_type: "g5.2xlarge"
+    instance_type: "nvidia-a10g"
+    instance_size: "x1"
     framework: "pytorch"
     endpoint_type: "protected"
-    namespace: null # The namespace under which to launch the endopint. Defaults to the current user's namespace
+    namespace: null # The namespace under which to launch the endpoint. Defaults to the current user's namespace
     image_url: null # Optionally specify the docker image to use when launching the endpoint model. E.g., launching models with later releases of the TGI container with support for newer models.
     env_vars:
       null # Optional environment variables to include when launching the endpoint. e.g., `MAX_INPUT_LENGTH: 2048`
@@ -58,7 +58,6 @@ __configuration file example:__
 
 ```yaml
 model:
-  type: "tgi"
   instance:
     inference_server_address: ""
     inference_server_auth: null
diff --git a/examples/model_configs/endpoint_model.yaml b/examples/model_configs/endpoint_model.yaml
index 3cca5c431..79b7eff0b 100644
--- a/examples/model_configs/endpoint_model.yaml
+++ b/examples/model_configs/endpoint_model.yaml
@@ -1,15 +1,17 @@
 model:
   base_params:
-    model_name: "meta-llama/Llama-2-7b-hf" # the model name or the endpoint name if reuse_existing is true
+    # Pass either model_name, or endpoint_name and true reuse_existing
+    # endpoint_name: "llama-2-7B-lighteval" # needs to be lower case without special characters
+    # reuse_existing: true # defaults to false; if true, ignore all params in instance, and don't delete the endpoint after evaluation
+    model_name: "meta-llama/Llama-2-7b-hf"
     revision: "main"
     dtype: "float16" # can be any of "awq", "eetq", "gptq", "4bit' or "8bit" (will use bitsandbytes), "bfloat16" or "float16"
-    reuse_existing: false # if true, ignore all params in instance, and don't delete the endpoint after evaluation
   instance:
     accelerator: "gpu"
     region: "eu-west-1"
     vendor: "aws"
-    instance_size: "x1"
     instance_type: "nvidia-a10g"
+    instance_size: "x1"
     framework: "pytorch"
     endpoint_type: "protected"
     namespace: null # The namespace under which to launch the endopint. Defaults to the current user's namespace
diff --git a/src/lighteval/models/endpoints/endpoint_model.py b/src/lighteval/models/endpoints/endpoint_model.py
index 112338964..3b08940fb 100644
--- a/src/lighteval/models/endpoints/endpoint_model.py
+++ b/src/lighteval/models/endpoints/endpoint_model.py
@@ -95,7 +95,7 @@ class InferenceEndpointModelConfig:
     endpoint_type: str = "protected"
     add_special_tokens: bool = True
     revision: str = "main"
-    namespace: str = None  # The namespace under which to launch the endopint. Defaults to the current user's namespace
+    namespace: str = None  # The namespace under which to launch the endpoint. Defaults to the current user's namespace
     image_url: str = None
     env_vars: dict = None
 

From f2e1f6970289f33aa42337bcbb51b00f71deee57 Mon Sep 17 00:00:00 2001
From: Albert Villanova del Moral
 <8515462+albertvillanova@users.noreply.github.com>
Date: Tue, 10 Dec 2024 17:55:20 +0100
Subject: [PATCH 05/12] Fix ignored reuse_existing in config file (#431)

* Align should_reuse_existing with reuse_existing

* Align reuse_existing default to False
---
 src/lighteval/main_endpoint.py                   | 2 +-
 src/lighteval/models/endpoints/endpoint_model.py | 8 ++++----
 2 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/src/lighteval/main_endpoint.py b/src/lighteval/main_endpoint.py
index d17da4325..4b31f0f2d 100644
--- a/src/lighteval/main_endpoint.py
+++ b/src/lighteval/main_endpoint.py
@@ -231,7 +231,7 @@ def inference_endpoint(
         "endpoint_name": config["base_params"].get("endpoint_name", None),
         "model_dtype": config["base_params"].get("dtype", None),
         "revision": config["base_params"].get("revision", None) or "main",
-        "should_reuse_existing": config["base_params"].get("should_reuse_existing"),
+        "reuse_existing": config["base_params"].get("reuse_existing"),
         "accelerator": config.get("instance", {}).get("accelerator", None),
         "region": config.get("instance", {}).get("region", None),
         "vendor": config.get("instance", {}).get("vendor", None),
diff --git a/src/lighteval/models/endpoints/endpoint_model.py b/src/lighteval/models/endpoints/endpoint_model.py
index 3b08940fb..909d4795d 100644
--- a/src/lighteval/models/endpoints/endpoint_model.py
+++ b/src/lighteval/models/endpoints/endpoint_model.py
@@ -84,7 +84,7 @@ class InferenceModelConfig:
 class InferenceEndpointModelConfig:
     endpoint_name: str = None
     model_name: str = None
-    should_reuse_existing: bool = False
+    reuse_existing: bool = False
     accelerator: str = "gpu"
     model_dtype: str = None  # if empty, we use the default
     vendor: str = "aws"
@@ -135,7 +135,7 @@ class InferenceEndpointModel(LightevalModel):
     def __init__(  # noqa: C901
         self, config: Union[InferenceEndpointModelConfig, InferenceModelConfig], env_config: EnvConfig
     ) -> None:
-        self.reuse_existing = getattr(config, "should_reuse_existing", True)
+        self.reuse_existing = getattr(config, "reuse_existing", False)
         self._max_length = None
         self.endpoint = None
         self.model_name = None
@@ -171,7 +171,7 @@ def __init__(  # noqa: C901
             ):
                 try:
                     if self.endpoint is None:  # Endpoint does not exist yet locally
-                        if not config.should_reuse_existing:  # New endpoint
+                        if not config.reuse_existing:  # New endpoint
                             logger.info("Creating endpoint.")
                             self.endpoint: InferenceEndpoint = create_inference_endpoint(
                                 name=endpoint_name,
@@ -239,7 +239,7 @@ def __init__(  # noqa: C901
                     # The endpoint actually already exists, we'll spin it up instead of trying to create a new one
                     if "409 Client Error: Conflict for url:" in str(e):
                         config.endpoint_name = endpoint_name
-                        config.should_reuse_existing = True
+                        config.reuse_existing = True
                     # Requested resources are not available
                     elif "Bad Request: Compute instance not available yet" in str(e):
                         logger.error(

From 6ad7276e07efb3b383e6da42019f3e729c45a8e8 Mon Sep 17 00:00:00 2001
From: Parag Ekbote <thecoolekbote189@gmail.com>
Date: Wed, 11 Dec 2024 15:44:13 +0530
Subject: [PATCH 06/12] Deprecate Obsolete Config Properties (#433)

* Deprecate obsolete config properties.
---
 src/lighteval/metrics/__init__.py     |    7 +-
 src/lighteval/tasks/default_tasks.py  | 2463 -------------------------
 src/lighteval/tasks/lighteval_task.py |    6 -
 3 files changed, 1 insertion(+), 2475 deletions(-)

diff --git a/src/lighteval/metrics/__init__.py b/src/lighteval/metrics/__init__.py
index 8ca514f96..f3d51941a 100644
--- a/src/lighteval/metrics/__init__.py
+++ b/src/lighteval/metrics/__init__.py
@@ -20,7 +20,6 @@
 # OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
 # SOFTWARE.
 
-import re
 
 from lighteval.metrics.metrics import Metric, MetricCategory
 from lighteval.models.model_output import ModelResponse
@@ -89,7 +88,6 @@ def apply_generative_metric(  # noqa: C901
     responses: list[list[ModelResponse]],
     formatted_docs: list[Doc],
     metrics: list[Metric],
-    output_regex: str = None,
 ):
     outputs = []
 
@@ -113,10 +111,7 @@ def apply_generative_metric(  # noqa: C901
         preds = []
 
         for pred_raw in preds_raw:
-            if output_regex is not None:
-                pred = next(iter(re.findall(output_regex, pred_raw)), "")
-            else:
-                pred = pred_raw
+            pred = pred_raw
             preds.append(pred)
 
         for metric in metrics:
diff --git a/src/lighteval/tasks/default_tasks.py b/src/lighteval/tasks/default_tasks.py
index fa5ce3707..59254a971 100644
--- a/src/lighteval/tasks/default_tasks.py
+++ b/src/lighteval/tasks/default_tasks.py
@@ -37,8 +37,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -55,8 +53,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=None,
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -73,8 +69,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=None,
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -91,8 +85,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=None,
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -109,8 +101,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=None,
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -127,8 +117,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=None,
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -145,8 +133,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=None,
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -163,8 +149,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=None,
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -181,8 +165,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=None,
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -199,8 +181,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=None,
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -217,8 +197,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=None,
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -235,8 +213,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=None,
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -253,8 +229,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=None,
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -271,8 +245,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=None,
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -289,8 +261,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=None,
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -307,8 +277,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=None,
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -325,8 +293,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=None,
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -343,8 +309,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=None,
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -361,8 +325,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -379,8 +341,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -397,8 +357,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -415,8 +373,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -433,8 +389,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -451,8 +405,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -469,8 +421,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -487,8 +437,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -505,8 +453,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -523,8 +469,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -541,8 +485,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -559,8 +501,6 @@
     generation_size=-1,
     metric=[Metrics.acc_golds_likelihood],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -577,8 +517,6 @@
     generation_size=-1,
     metric=[Metrics.acc_golds_likelihood],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -595,8 +533,6 @@
     generation_size=-1,
     metric=[Metrics.acc_golds_likelihood],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -613,8 +549,6 @@
     generation_size=-1,
     metric=[Metrics.acc_golds_likelihood],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -631,8 +565,6 @@
     generation_size=-1,
     metric=[Metrics.acc_golds_likelihood],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -649,8 +581,6 @@
     generation_size=-1,
     metric=[Metrics.acc_golds_likelihood],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -667,8 +597,6 @@
     generation_size=-1,
     metric=[Metrics.acc_golds_likelihood],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -685,8 +613,6 @@
     generation_size=-1,
     metric=[Metrics.acc_golds_likelihood],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -703,8 +629,6 @@
     generation_size=-1,
     metric=[Metrics.acc_golds_likelihood],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -721,8 +645,6 @@
     generation_size=-1,
     metric=[Metrics.acc_golds_likelihood],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -739,8 +661,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -757,8 +677,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -775,8 +693,6 @@
     generation_size=-1,
     metric=[Metrics.acc_golds_likelihood],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -793,8 +709,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -811,8 +725,6 @@
     generation_size=1,
     metric=[Metrics.bleu],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -829,7 +741,6 @@
     generation_size=100,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=None,
-    output_regex="[^\\.\\?\\!\\;\\n]+",
     trust_dataset=True,
     version=0,
 )
@@ -851,8 +762,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -869,8 +778,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -887,8 +794,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -905,8 +810,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -923,8 +826,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -941,8 +842,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -959,8 +858,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -977,8 +874,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -995,8 +890,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1013,8 +906,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1031,8 +922,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1049,8 +938,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1067,8 +954,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1085,8 +970,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1103,8 +986,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1121,8 +1002,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1139,8 +1018,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1157,8 +1034,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1175,8 +1050,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1193,8 +1066,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1212,8 +1083,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1231,8 +1100,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1250,8 +1117,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1269,8 +1134,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1288,8 +1151,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1307,8 +1168,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1326,8 +1185,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1345,8 +1202,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1364,8 +1219,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1383,8 +1236,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1402,8 +1253,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1421,8 +1270,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1440,8 +1287,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1459,8 +1304,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1478,8 +1321,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1497,8 +1338,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1516,8 +1355,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     must_remove_duplicate_docs=True,
     trust_dataset=True,
     version=0,
@@ -1541,8 +1378,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1565,8 +1400,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1589,8 +1422,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1613,8 +1444,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1637,8 +1466,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1661,8 +1488,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1685,8 +1510,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1709,8 +1532,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1733,8 +1554,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1757,8 +1576,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1781,8 +1598,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1805,8 +1620,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1829,8 +1642,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1853,8 +1664,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1877,8 +1686,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1901,8 +1708,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1925,8 +1730,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1949,8 +1752,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1973,8 +1774,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -1997,8 +1796,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2021,8 +1818,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2045,8 +1840,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2069,8 +1862,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2093,8 +1884,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2117,8 +1906,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2141,8 +1928,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2165,8 +1950,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["</s>", "Q=", "\n\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2189,8 +1972,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2213,8 +1994,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2237,8 +2016,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2261,8 +2038,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2285,8 +2060,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2309,8 +2082,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2333,8 +2104,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2357,8 +2126,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2381,8 +2148,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2405,8 +2170,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2429,8 +2192,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2453,8 +2214,6 @@
         Metrics.perfect_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2471,8 +2230,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2489,8 +2246,6 @@
     generation_size=100,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2512,8 +2267,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2535,8 +2288,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2558,8 +2309,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2581,8 +2330,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2604,8 +2351,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2627,8 +2372,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2650,8 +2393,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2673,8 +2414,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2696,8 +2435,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2719,8 +2456,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2742,8 +2477,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2765,8 +2498,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2788,8 +2519,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2811,8 +2540,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2834,8 +2561,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2857,8 +2582,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2880,8 +2603,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2903,8 +2624,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2926,8 +2645,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2949,8 +2666,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2972,8 +2687,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -2995,8 +2708,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3018,8 +2729,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3041,8 +2750,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3059,8 +2766,6 @@
     generation_size=100,
     metric=[Metrics.rouge1, Metrics.rouge2, Metrics.rougeL],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3077,8 +2782,6 @@
     generation_size=100,
     metric=[Metrics.rouge1, Metrics.rouge2, Metrics.rougeL],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3095,8 +2798,6 @@
     generation_size=100,
     metric=[Metrics.rouge1, Metrics.rouge2, Metrics.rougeL],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3113,8 +2814,6 @@
     generation_size=100,
     metric=[Metrics.rouge1, Metrics.rouge2, Metrics.rougeL],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3131,8 +2830,6 @@
     generation_size=100,
     metric=[Metrics.rouge1, Metrics.rouge2, Metrics.rougeL],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3149,8 +2846,6 @@
     generation_size=100,
     metric=[Metrics.rouge1, Metrics.rouge2, Metrics.rougeL],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3167,8 +2862,6 @@
     generation_size=100,
     metric=[Metrics.rouge1, Metrics.rouge2, Metrics.rougeL],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3185,8 +2878,6 @@
     generation_size=100,
     metric=[Metrics.rouge1, Metrics.rouge2, Metrics.rougeL],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3203,8 +2894,6 @@
     generation_size=100,
     metric=[Metrics.rouge1, Metrics.rouge2, Metrics.rougeL],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3221,8 +2910,6 @@
     generation_size=100,
     metric=[Metrics.rouge1, Metrics.rouge2, Metrics.rougeL],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3239,8 +2926,6 @@
     generation_size=100,
     metric=[Metrics.rouge1, Metrics.rouge2, Metrics.rougeL],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3257,8 +2942,6 @@
     generation_size=100,
     metric=[Metrics.rouge1, Metrics.rouge2, Metrics.rougeL],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3275,8 +2958,6 @@
     generation_size=100,
     metric=[Metrics.rouge1, Metrics.rouge2, Metrics.rougeL],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3293,8 +2974,6 @@
     generation_size=100,
     metric=[Metrics.rouge1, Metrics.rouge2, Metrics.rougeL],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3311,8 +2990,6 @@
     generation_size=100,
     metric=[Metrics.rouge1, Metrics.rouge2, Metrics.rougeL],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3329,8 +3006,6 @@
     generation_size=100,
     metric=[Metrics.rouge1, Metrics.rouge2, Metrics.rougeL],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3352,8 +3027,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3375,8 +3048,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3398,8 +3069,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3421,8 +3090,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3444,8 +3111,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3462,8 +3127,6 @@
     generation_size=100,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3485,8 +3148,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3508,8 +3169,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3531,8 +3190,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3554,8 +3211,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3577,8 +3232,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3600,8 +3253,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3618,8 +3269,6 @@
     generation_size=100,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3636,8 +3285,6 @@
     generation_size=100,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3659,8 +3306,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3677,8 +3322,6 @@
     generation_size=100,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3700,8 +3343,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3723,8 +3364,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3746,8 +3385,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3769,8 +3406,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3792,8 +3427,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3815,8 +3448,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3838,8 +3469,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3861,8 +3490,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3884,8 +3511,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3907,8 +3532,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3925,8 +3548,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3943,8 +3564,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3961,8 +3580,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3979,8 +3596,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -3997,8 +3612,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4015,8 +3628,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4033,8 +3644,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4051,8 +3660,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4069,8 +3676,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4087,8 +3692,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4105,8 +3708,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4123,8 +3724,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4141,8 +3740,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4159,8 +3756,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4177,8 +3772,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4195,8 +3788,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4213,8 +3804,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4231,8 +3820,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4249,8 +3836,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4267,8 +3852,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4285,8 +3868,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4303,8 +3884,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4321,8 +3900,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4339,8 +3916,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4357,8 +3932,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4375,8 +3948,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4393,8 +3964,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4411,8 +3980,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4429,8 +3996,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4447,8 +4012,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4465,8 +4028,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4483,8 +4044,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4501,8 +4060,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4519,8 +4076,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4537,8 +4092,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4555,8 +4108,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4573,8 +4124,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4591,8 +4140,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4609,8 +4156,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4627,8 +4172,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4645,8 +4188,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4663,8 +4204,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4681,8 +4220,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4699,8 +4236,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4717,8 +4252,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4735,8 +4268,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4753,8 +4284,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4771,8 +4300,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4789,8 +4316,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4807,8 +4332,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4825,8 +4348,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4843,8 +4364,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4861,8 +4380,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4879,8 +4396,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4897,8 +4412,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4915,8 +4428,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4933,8 +4444,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4951,8 +4460,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4969,8 +4476,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -4987,8 +4492,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5005,8 +4508,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5023,8 +4524,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5041,8 +4540,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5059,8 +4556,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5077,8 +4572,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5095,8 +4588,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5113,8 +4604,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5131,8 +4620,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5149,8 +4636,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5167,8 +4652,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5185,8 +4668,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5203,8 +4684,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5221,8 +4700,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5239,8 +4716,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5257,8 +4732,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5275,8 +4748,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5293,8 +4764,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5311,8 +4780,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5329,8 +4796,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5347,8 +4812,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5365,8 +4828,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5383,8 +4844,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5401,8 +4860,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5419,8 +4876,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5437,8 +4892,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5455,8 +4908,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5473,8 +4924,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5491,8 +4940,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5509,8 +4956,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5527,8 +4972,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5545,8 +4988,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5563,8 +5004,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5581,8 +5020,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5599,8 +5036,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5617,8 +5052,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5635,8 +5068,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5653,8 +5084,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5671,8 +5100,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5689,8 +5116,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5707,8 +5132,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5725,8 +5148,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5743,8 +5164,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5761,8 +5180,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5779,8 +5196,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5797,8 +5212,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5815,8 +5228,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5833,8 +5244,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5851,8 +5260,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5869,8 +5276,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5887,8 +5292,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5905,8 +5308,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5923,8 +5324,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5941,8 +5340,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5959,8 +5356,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5977,8 +5372,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -5995,8 +5388,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6013,8 +5404,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6031,8 +5420,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6049,8 +5436,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6067,8 +5452,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6085,8 +5468,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6103,8 +5484,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6121,8 +5500,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6139,8 +5516,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6157,8 +5532,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6175,8 +5548,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6193,8 +5564,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6211,8 +5580,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6229,8 +5596,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6247,8 +5612,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6265,8 +5628,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6283,8 +5644,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6301,8 +5660,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6319,8 +5676,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6337,8 +5692,6 @@
     generation_size=100,
     metric=[Metrics.prediction_perplexity],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6355,8 +5708,6 @@
     generation_size=100,
     metric=[Metrics.prediction_perplexity],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6373,8 +5724,6 @@
     generation_size=100,
     metric=[Metrics.prediction_perplexity],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6391,8 +5740,6 @@
     generation_size=100,
     metric=[Metrics.prediction_perplexity],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6409,8 +5756,6 @@
     generation_size=100,
     metric=[Metrics.prediction_perplexity],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6427,8 +5772,6 @@
     generation_size=100,
     metric=[Metrics.prediction_perplexity],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6450,8 +5793,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6473,8 +5814,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6491,8 +5830,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6509,8 +5846,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6527,8 +5862,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6545,8 +5878,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6563,8 +5894,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6581,8 +5910,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6599,8 +5926,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6624,8 +5949,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6649,8 +5972,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6674,8 +5995,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6699,8 +6018,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6724,8 +6041,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6749,8 +6064,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6774,8 +6087,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6799,8 +6110,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6824,8 +6133,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6842,8 +6149,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6860,8 +6165,6 @@
     generation_size=1,
     metric=[Metrics.rouge_t5, Metrics.bleu],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6878,8 +6181,6 @@
     generation_size=1,
     metric=[Metrics.rouge_t5, Metrics.bleu, Metrics.loglikelihood_acc, Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6896,8 +6197,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6919,8 +6218,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6937,8 +6234,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6955,7 +6250,6 @@
     generation_size=100,
     metric=[Metrics.rouge_t5, Metrics.bleu, Metrics.perfect_exact_match],
     stop_sequence=[".", ";", "!", "?"],
-    output_regex="[^\\.\\?\\!\\;\\n]+",
     trust_dataset=True,
     version=0,
 )
@@ -6972,8 +6266,6 @@
     generation_size=1,
     metric=[Metrics.rouge_t5, Metrics.loglikelihood_acc, Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -6990,8 +6282,6 @@
     generation_size=100,
     metric=[Metrics.copyright],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7008,8 +6298,6 @@
     generation_size=100,
     metric=[Metrics.copyright],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7026,8 +6314,6 @@
     generation_size=100,
     metric=[Metrics.copyright],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7044,8 +6330,6 @@
     generation_size=100,
     metric=[Metrics.copyright],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7062,8 +6346,6 @@
     generation_size=100,
     metric=[Metrics.copyright],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7080,8 +6362,6 @@
     generation_size=100,
     metric=[Metrics.copyright],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7098,8 +6378,6 @@
     generation_size=100,
     metric=[Metrics.copyright],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7116,8 +6394,6 @@
     generation_size=100,
     metric=[Metrics.copyright],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7134,8 +6410,6 @@
     generation_size=100,
     metric=[Metrics.copyright],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7152,8 +6426,6 @@
     generation_size=100,
     metric=[Metrics.copyright],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7170,8 +6442,6 @@
     generation_size=100,
     metric=[Metrics.copyright],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7188,8 +6458,6 @@
     generation_size=100,
     metric=[Metrics.copyright],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7206,8 +6474,6 @@
     generation_size=100,
     metric=[Metrics.copyright],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7224,8 +6490,6 @@
     generation_size=100,
     metric=[Metrics.copyright],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7242,8 +6506,6 @@
     generation_size=100,
     metric=[Metrics.copyright],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7260,8 +6522,6 @@
     generation_size=100,
     metric=[Metrics.copyright],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7278,8 +6538,6 @@
     generation_size=100,
     metric=[Metrics.copyright],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7296,8 +6554,6 @@
     generation_size=10,
     metric=[Metrics.perfect_exact_match, Metrics.f1_score],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7314,8 +6570,6 @@
     generation_size=10,
     metric=[Metrics.perfect_exact_match, Metrics.f1_score],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7332,8 +6586,6 @@
     generation_size=128,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match, Metrics.f1_score, Metrics.rougeL, "bleu_1", "bleu_4"],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7350,8 +6602,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7368,8 +6618,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7386,8 +6634,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7404,8 +6650,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7422,8 +6666,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7440,8 +6682,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7458,8 +6698,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7476,8 +6714,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7494,8 +6730,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7512,8 +6746,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7530,8 +6762,6 @@
     generation_size=None,
     metric=[Metrics.drop],
     stop_sequence=["."],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7548,8 +6778,6 @@
     generation_size=5,
     metric=[Metrics.exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7566,8 +6794,6 @@
     generation_size=5,
     metric=[Metrics.exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7584,8 +6810,6 @@
     generation_size=5,
     metric=[Metrics.exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7602,8 +6826,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7620,8 +6842,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7638,8 +6858,6 @@
     generation_size=1,
     metric=[Metrics.rouge_t5, Metrics.bleu, Metrics.loglikelihood_acc, Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7656,8 +6874,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7674,8 +6890,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7692,8 +6906,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7710,8 +6922,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7728,8 +6938,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7746,8 +6954,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7769,8 +6975,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7792,8 +6996,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7815,8 +7017,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7838,8 +7038,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7861,8 +7059,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7884,8 +7080,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7907,8 +7101,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7930,8 +7122,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7953,8 +7143,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7976,8 +7164,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -7999,8 +7185,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8022,8 +7206,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8045,8 +7227,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8068,8 +7248,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8091,8 +7269,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8109,8 +7285,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8127,8 +7301,6 @@
     generation_size=5,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8145,8 +7317,6 @@
     generation_size=5,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8163,8 +7333,6 @@
     generation_size=5,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8181,8 +7349,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8199,8 +7365,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8217,8 +7381,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8235,8 +7397,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8253,8 +7413,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8271,8 +7429,6 @@
     generation_size=1,
     metric=[Metrics.bleu, Metrics.bleurt],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8289,8 +7445,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8307,8 +7461,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8325,8 +7477,6 @@
     generation_size=1,
     metric=[Metrics.bleu, Metrics.rouge_t5],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8343,8 +7493,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8361,8 +7509,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8379,8 +7525,6 @@
     generation_size=1,
     metric=[Metrics.rouge_t5, Metrics.bleu, Metrics.loglikelihood_acc, Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8397,8 +7541,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token, Metrics.mcc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8415,8 +7557,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8433,8 +7573,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8451,8 +7589,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, "loglikelihood_f1"],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8469,8 +7605,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8487,8 +7621,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, "loglikelihood_f1"],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8505,8 +7637,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8523,8 +7653,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8541,8 +7669,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8559,8 +7685,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8577,8 +7701,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8595,8 +7717,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8613,8 +7733,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8631,8 +7749,6 @@
     generation_size=256,
     metric=[Metrics.quasi_exact_match_gsm8k],
     stop_sequence=["Question=", "Question", "="],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8649,8 +7765,6 @@
     generation_size=256,
     metric=[Metrics.quasi_exact_match_gsm8k, Metrics.maj_at_8_gsm8k],
     stop_sequence=["Question="],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8667,8 +7781,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8685,8 +7797,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8703,8 +7813,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8726,8 +7834,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8744,8 +7850,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8762,8 +7866,6 @@
     generation_size=1,
     metric=[Metrics.bleu, Metrics.rouge_t5, Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8780,8 +7882,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8798,8 +7898,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8816,8 +7914,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8834,8 +7930,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8852,8 +7946,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8870,8 +7962,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8895,8 +7985,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8920,8 +8008,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8938,8 +8024,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8956,8 +8040,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8974,8 +8056,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -8997,8 +8077,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9020,8 +8098,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9043,8 +8119,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9066,8 +8140,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9089,8 +8161,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9112,8 +8182,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9130,8 +8198,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9148,8 +8214,6 @@
     generation_size=1,
     metric=[Metrics.bleu, Metrics.rouge_t5, Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9166,8 +8230,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9184,8 +8246,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9202,8 +8262,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9220,8 +8278,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9238,8 +8294,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9256,8 +8310,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9274,8 +8326,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9292,8 +8342,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9310,8 +8358,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9328,8 +8374,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9346,8 +8390,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9364,8 +8406,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9382,8 +8422,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9400,8 +8438,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9418,8 +8454,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9436,8 +8470,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9454,8 +8486,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9472,8 +8502,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9490,8 +8518,6 @@
     generation_size=10,
     metric=[Metrics.target_perplexity],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9508,8 +8534,6 @@
     generation_size=10,
     metric=[Metrics.target_perplexity],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9526,8 +8550,6 @@
     generation_size=10,
     metric=[Metrics.target_perplexity],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9544,8 +8566,6 @@
     generation_size=10,
     metric=[Metrics.target_perplexity],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9562,8 +8582,6 @@
     generation_size=10,
     metric=[Metrics.target_perplexity],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9580,8 +8598,6 @@
     generation_size=10,
     metric=[Metrics.target_perplexity],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9598,8 +8614,6 @@
     generation_size=10,
     metric=[Metrics.target_perplexity],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9616,8 +8630,6 @@
     generation_size=10,
     metric=[Metrics.target_perplexity],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9634,8 +8646,6 @@
     generation_size=10,
     metric=[Metrics.target_perplexity],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9652,8 +8662,6 @@
     generation_size=1,
     metric=[Metrics.bleu, Metrics.rouge_t5, Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9670,8 +8678,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9695,8 +8701,6 @@
         Metrics.bert_score,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9720,8 +8724,6 @@
         Metrics.bert_score,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9745,8 +8747,6 @@
         Metrics.bert_score,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9769,8 +8769,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9793,8 +8791,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9817,8 +8813,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9841,8 +8835,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9865,8 +8857,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9889,8 +8879,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9913,8 +8901,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9937,8 +8923,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9961,8 +8945,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -9985,8 +8967,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10009,8 +8989,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10033,8 +9011,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10057,8 +9033,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10081,8 +9055,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10099,8 +9071,6 @@
     generation_size=20,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match, Metrics.f1_score],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10123,8 +9093,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10147,8 +9115,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10171,8 +9137,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10195,8 +9159,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10219,8 +9181,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10243,8 +9203,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10267,8 +9225,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10291,8 +9247,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10315,8 +9269,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10339,8 +9291,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10363,8 +9313,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10381,8 +9329,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10399,7 +9345,6 @@
     generation_size=100,
     metric=[Metrics.bleu, Metrics.rouge_t5, Metrics.perfect_exact_match],
     stop_sequence=None,
-    output_regex="[^\\.\\?\\!\\;\\n]+",
     trust_dataset=True,
     version=0,
 )
@@ -10416,8 +9361,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10434,8 +9377,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10452,8 +9393,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10470,8 +9409,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10488,8 +9425,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10506,8 +9441,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10529,8 +9462,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10552,8 +9483,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10575,8 +9504,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10598,8 +9525,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10621,8 +9546,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10639,8 +9562,6 @@
     generation_size=2048,
     metric=[Metrics.quasi_exact_match_math, Metrics.maj_at_4_math],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=1,
 )
@@ -10657,8 +9578,6 @@
     generation_size=2048,
     metric=[Metrics.quasi_exact_match_math, Metrics.maj_at_4_math],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=1,
 )
@@ -10675,8 +9594,6 @@
     generation_size=2048,
     metric=[Metrics.quasi_exact_match_math, Metrics.maj_at_4_math],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=1,
 )
@@ -10693,8 +9610,6 @@
     generation_size=2048,
     metric=[Metrics.quasi_exact_match_math, Metrics.maj_at_4_math],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=1,
 )
@@ -10711,8 +9626,6 @@
     generation_size=2048,
     metric=[Metrics.quasi_exact_match_math, Metrics.maj_at_4_math],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=1,
 )
@@ -10729,8 +9642,6 @@
     generation_size=2048,
     metric=[Metrics.quasi_exact_match_math, Metrics.maj_at_4_math],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=1,
 )
@@ -10747,8 +9658,6 @@
     generation_size=2048,
     metric=[Metrics.quasi_exact_match_math, Metrics.maj_at_4_math],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=1,
 )
@@ -10765,8 +9674,6 @@
     generation_size=2048,
     metric=[Metrics.quasi_exact_match_math, Metrics.maj_at_4_math],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10783,8 +9690,6 @@
     generation_size=2048,
     metric=[Metrics.quasi_exact_match_math, Metrics.maj_at_4_math],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10801,8 +9706,6 @@
     generation_size=2048,
     metric=[Metrics.quasi_exact_match_math, Metrics.maj_at_4_math],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10819,8 +9722,6 @@
     generation_size=2048,
     metric=[Metrics.quasi_exact_match_math, Metrics.maj_at_4_math],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10837,8 +9738,6 @@
     generation_size=2048,
     metric=[Metrics.quasi_exact_match_math, Metrics.maj_at_4_math],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10855,8 +9754,6 @@
     generation_size=2048,
     metric=[Metrics.quasi_exact_match_math, Metrics.maj_at_4_math],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10873,8 +9770,6 @@
     generation_size=2048,
     metric=[Metrics.quasi_exact_match_math, Metrics.maj_at_4_math],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10891,8 +9786,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10909,8 +9802,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10927,8 +9818,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10945,8 +9834,6 @@
     generation_size=128,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match, Metrics.f1_score, Metrics.rougeL, "bleu_1", "bleu_4"],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10963,8 +9850,6 @@
     generation_size=128,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match, Metrics.f1_score, Metrics.rougeL, "bleu_1", "bleu_4"],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -10981,8 +9866,6 @@
     generation_size=128,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match, Metrics.f1_score, Metrics.rougeL, "bleu_1", "bleu_4"],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11005,8 +9888,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11023,8 +9904,6 @@
     generation_size=512,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match, Metrics.f1_score, Metrics.rougeL, "bleu_1", "bleu_4"],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11047,8 +9926,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11065,8 +9942,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11083,8 +9958,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11101,8 +9974,6 @@
     generation_size=None,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n", "=", "Question="],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11119,8 +9990,6 @@
     generation_size=None,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n", "=", "Pregunta="],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11137,8 +10006,6 @@
     generation_size=None,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n", "=", "Question="],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11155,8 +10022,6 @@
     generation_size=None,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n", "=", "Frage="],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11173,8 +10038,6 @@
     generation_size=None,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n", "=", "\u0417\u0430\u0434\u0430\u0447\u0430="],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11191,8 +10054,6 @@
     generation_size=None,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n", "=", "\u95ee\u9898="],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11209,8 +10070,6 @@
     generation_size=None,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n", "=", "\u554f\u984c="],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11227,8 +10086,6 @@
     generation_size=None,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n", "=", "\u0e42\u0e08\u0e17\u0e22\u0e4c="],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11245,8 +10102,6 @@
     generation_size=None,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n", "=", "Swali="],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11263,8 +10118,6 @@
     generation_size=None,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n", "=", "\u09aa\u09cd\u09b0\u09b6\u09cd\u09a8="],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11281,8 +10134,6 @@
     generation_size=None,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n", "=", "\u0c2a\u0c4d\u0c30\u0c36\u0c4d\u0c28="],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11299,8 +10150,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.rouge_t5],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11317,8 +10166,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11335,8 +10182,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11353,8 +10198,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11371,8 +10214,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11394,8 +10235,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11412,8 +10251,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11430,8 +10267,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11453,8 +10288,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11471,8 +10304,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11489,8 +10320,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11512,8 +10341,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11530,8 +10357,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11548,8 +10373,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11571,8 +10394,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11589,8 +10410,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11607,8 +10426,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11630,8 +10447,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11648,8 +10463,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11666,8 +10479,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11689,8 +10500,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11707,8 +10516,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11725,8 +10532,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11748,8 +10553,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11766,8 +10569,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11784,8 +10585,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11807,8 +10606,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11825,8 +10622,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11843,8 +10638,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11866,8 +10659,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11884,8 +10675,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11902,8 +10691,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11925,8 +10712,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11943,8 +10728,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11961,8 +10744,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -11984,8 +10765,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12002,8 +10781,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12020,8 +10797,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12043,8 +10818,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12061,8 +10834,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12079,8 +10850,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12102,8 +10871,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12120,8 +10887,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12138,8 +10903,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12161,8 +10924,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12179,8 +10940,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12197,8 +10956,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12220,8 +10977,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12238,8 +10993,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12256,8 +11009,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12279,8 +11030,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12297,8 +11046,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12315,8 +11062,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12338,8 +11083,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12356,8 +11099,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12374,8 +11115,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12397,8 +11136,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12415,8 +11152,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12433,8 +11168,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12456,8 +11189,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12474,8 +11205,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12492,8 +11221,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12515,8 +11242,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12533,8 +11258,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12551,8 +11274,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12574,8 +11295,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12592,8 +11311,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12610,8 +11327,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12633,8 +11348,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12651,8 +11364,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12669,8 +11380,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12692,8 +11401,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12710,8 +11417,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12728,8 +11433,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12751,8 +11454,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12769,8 +11470,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12787,8 +11486,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12810,8 +11507,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12828,8 +11523,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12846,8 +11539,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12869,8 +11560,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12887,8 +11576,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12905,8 +11592,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12928,8 +11613,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12946,8 +11629,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12964,8 +11645,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -12987,8 +11666,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13005,8 +11682,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13023,8 +11698,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13046,8 +11719,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13064,8 +11735,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13082,8 +11751,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13105,8 +11772,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13123,8 +11788,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13141,8 +11804,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13164,8 +11825,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13182,8 +11841,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13200,8 +11857,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13223,8 +11878,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13241,8 +11894,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13259,8 +11910,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13282,8 +11931,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13300,8 +11947,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13318,8 +11963,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13341,8 +11984,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13359,8 +12000,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13377,8 +12016,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13400,8 +12037,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13418,8 +12053,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13436,8 +12069,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13459,8 +12090,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13477,8 +12106,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13495,8 +12122,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13518,8 +12143,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13536,8 +12159,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13554,8 +12175,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13577,8 +12196,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13595,8 +12212,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13613,8 +12228,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13636,8 +12249,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13654,8 +12265,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13672,8 +12281,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13695,8 +12302,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13713,8 +12318,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13731,8 +12334,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13754,8 +12355,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13772,8 +12371,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13790,8 +12387,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13813,8 +12408,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13831,8 +12424,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13849,8 +12440,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13872,8 +12461,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13890,8 +12477,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13908,8 +12493,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13931,8 +12514,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13949,8 +12530,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13967,8 +12546,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -13990,8 +12567,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14008,8 +12583,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14026,8 +12599,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14049,8 +12620,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14067,8 +12636,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14085,8 +12652,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14108,8 +12673,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14126,8 +12689,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14144,8 +12705,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14167,8 +12726,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14185,8 +12742,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14203,8 +12758,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14226,8 +12779,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14244,8 +12795,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14262,8 +12811,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14285,8 +12832,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14303,8 +12848,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14321,8 +12864,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14344,8 +12885,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14362,8 +12901,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14380,8 +12917,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14403,8 +12938,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14421,8 +12954,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14439,8 +12970,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14462,8 +12991,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14480,8 +13007,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14498,8 +13023,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14521,8 +13044,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14539,8 +13060,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14557,8 +13076,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14580,8 +13097,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14598,8 +13113,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14616,8 +13129,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14639,8 +13150,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14657,8 +13166,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14675,8 +13182,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14698,8 +13203,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14716,8 +13219,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14734,8 +13235,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14752,8 +13251,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14770,8 +13267,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14788,8 +13283,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14806,8 +13299,6 @@
     generation_size=200,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14824,8 +13315,6 @@
     generation_size=200,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14842,8 +13331,6 @@
     generation_size=200,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14860,8 +13347,6 @@
     generation_size=200,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14878,8 +13363,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14896,8 +13379,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14914,8 +13395,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14932,8 +13411,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14950,8 +13427,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14968,8 +13443,6 @@
     generation_size=-1,
     metric=[Metrics.recall_at_1, Metrics.recall_at_2, Metrics.mrr],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -14986,8 +13459,6 @@
     generation_size=-1,
     metric=[Metrics.recall_at_1, Metrics.recall_at_2, Metrics.mrr],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15004,8 +13475,6 @@
     generation_size=100,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match, Metrics.f1_score, Metrics.rougeL, "bleu_1", "bleu_4"],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15022,8 +13491,6 @@
     generation_size=1,
     metric=[Metrics.bleu, Metrics.rouge_t5],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15040,8 +13507,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15058,8 +13523,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15076,8 +13539,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15094,8 +13555,6 @@
     generation_size=20,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15112,8 +13571,6 @@
     generation_size=20,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15130,8 +13587,6 @@
     generation_size=20,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15148,8 +13603,6 @@
     generation_size=20,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15166,8 +13619,6 @@
     generation_size=20,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15184,8 +13635,6 @@
     generation_size=20,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15202,8 +13651,6 @@
     generation_size=20,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15220,8 +13667,6 @@
     generation_size=20,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15238,8 +13683,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15256,8 +13699,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15279,8 +13720,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15297,8 +13736,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15315,7 +13752,6 @@
     generation_size=20,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex="([-+]?\\d+)[.]0,1)$",
     trust_dataset=True,
     version=0,
 )
@@ -15332,8 +13768,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15350,8 +13784,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15368,7 +13800,6 @@
     generation_size=100,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=None,
-    output_regex="[^\\.\\?\\!\\;\\n]+",
     trust_dataset=True,
     version=0,
 )
@@ -15385,8 +13816,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc, Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15403,8 +13832,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15421,8 +13848,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15439,8 +13864,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15457,8 +13880,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15475,8 +13896,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15493,8 +13912,6 @@
     generation_size=1,
     metric=[Metrics.bleu, Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15511,8 +13928,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15534,8 +13949,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15552,8 +13965,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15570,8 +13981,6 @@
     generation_size=1,
     metric=[Metrics.f1_score],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15588,8 +13997,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15606,8 +14013,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15624,8 +14029,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15647,8 +14050,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15665,8 +14066,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15683,8 +14082,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15701,8 +14098,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15719,8 +14114,6 @@
     generation_size=1,
     metric=[Metrics.bleurt, Metrics.bleu, Metrics.rouge_t5, Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15737,8 +14130,6 @@
     generation_size=20,
     metric=[Metrics.f1_score_quasi],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15755,8 +14146,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15773,8 +14162,6 @@
     generation_size=100,
     metric=[Metrics.exact_match, Metrics.quasi_exact_match, Metrics.f1_score],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15791,8 +14178,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15809,8 +14194,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15834,8 +14217,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15859,8 +14240,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15884,8 +14263,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15909,8 +14286,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15934,8 +14309,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15959,8 +14332,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -15984,8 +14355,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16009,8 +14378,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16034,8 +14401,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16059,8 +14424,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16084,8 +14447,6 @@
         Metrics.f1_score_micro,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16102,8 +14463,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16120,8 +14479,6 @@
     generation_size=20,
     metric=[Metrics.prediction_perplexity],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16138,8 +14495,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16156,8 +14511,6 @@
     generation_size=100,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16174,8 +14527,6 @@
     generation_size=1,
     metric=[Metrics.rouge_t5, Metrics.bleu, Metrics.loglikelihood_acc, Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16192,8 +14543,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16210,8 +14559,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16228,8 +14575,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16246,8 +14591,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16264,8 +14607,6 @@
     generation_size=1,
     metric=[Metrics.bleu, Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16282,8 +14623,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16300,8 +14639,6 @@
     generation_size=1,
     metric=[Metrics.bleu, Metrics.rouge_t5, Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16318,8 +14655,6 @@
     generation_size=1,
     metric=[Metrics.bleu, Metrics.rouge_t5, Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16336,8 +14671,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16354,8 +14687,6 @@
     generation_size=1,
     metric=[Metrics.bleu, Metrics.rouge_t5, Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16372,8 +14703,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16390,8 +14719,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16408,8 +14735,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16426,8 +14751,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16444,8 +14767,6 @@
     generation_size=1,
     metric=[Metrics.bleu, Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16462,8 +14783,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16480,8 +14799,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16503,8 +14820,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16521,8 +14836,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16539,8 +14852,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16557,8 +14868,6 @@
     generation_size=1,
     metric=[Metrics.f1_score_macro],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16575,8 +14884,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16593,8 +14900,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16611,8 +14916,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16629,8 +14932,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16647,8 +14948,6 @@
     generation_size=1,
     metric=[Metrics.bleu, Metrics.rouge_t5, Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16665,8 +14964,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16683,8 +14980,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16708,8 +15003,6 @@
         Metrics.bert_score,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16733,8 +15026,6 @@
         Metrics.bert_score,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16758,8 +15049,6 @@
         Metrics.bert_score,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16776,8 +15065,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16794,8 +15081,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc_single_token, "multi_f1_numeric"],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16812,8 +15097,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16830,8 +15113,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16848,8 +15129,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16866,8 +15145,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16884,8 +15161,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc_single_token],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16902,8 +15177,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16920,8 +15193,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16938,8 +15209,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16956,8 +15225,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16979,8 +15246,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -16997,8 +15262,6 @@
     generation_size=20,
     metric=[Metrics.exact_match, Metrics.f1_score],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17015,8 +15278,6 @@
     generation_size=20,
     metric=[Metrics.exact_match, Metrics.f1_score],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17038,8 +15299,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17061,8 +15320,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17079,8 +15336,6 @@
     generation_size=1,
     metric=[Metrics.bleu, Metrics.rouge_t5],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17097,8 +15352,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17115,8 +15368,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17133,8 +15384,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17151,8 +15400,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17169,8 +15416,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17187,8 +15432,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17205,8 +15448,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17223,8 +15464,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17241,8 +15480,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17259,8 +15496,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17277,8 +15512,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17295,8 +15528,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17313,8 +15544,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17331,8 +15560,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17349,8 +15576,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17367,8 +15592,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17385,8 +15608,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17403,8 +15624,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17421,8 +15640,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17439,8 +15656,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17457,8 +15672,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17475,8 +15688,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17493,8 +15704,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17511,8 +15720,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17529,8 +15736,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17547,8 +15752,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17565,8 +15768,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17583,8 +15784,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17601,8 +15800,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17619,8 +15816,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17637,8 +15832,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17655,8 +15848,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17673,8 +15864,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17691,8 +15880,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17709,8 +15896,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17727,8 +15912,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17745,8 +15928,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17763,8 +15944,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17781,8 +15960,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17799,8 +15976,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17817,8 +15992,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17835,8 +16008,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17853,8 +16024,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17871,8 +16040,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17889,8 +16056,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17907,8 +16072,6 @@
     generation_size=1,
     metric=[Metrics.bleu, Metrics.rouge_t5, Metrics.loglikelihood_acc, Metrics.bleurt],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17925,8 +16088,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17943,8 +16104,6 @@
     generation_size=20,
     metric=[Metrics.quasi_exact_match_triviaqa],
     stop_sequence=["\n", ".", ","],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17961,8 +16120,6 @@
     generation_size=200,
     metric=[Metrics.bleu, Metrics.rouge_t5],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -17979,8 +16136,6 @@
     generation_size=-1,
     metric=[Metrics.truthfulqa_mc_metrics],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18003,8 +16158,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18021,8 +16174,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18039,8 +16190,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18057,8 +16206,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18075,8 +16222,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18093,8 +16238,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18111,8 +16254,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18129,8 +16270,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18147,8 +16286,6 @@
     generation_size=5,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18165,8 +16302,6 @@
     generation_size=5,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18183,8 +16318,6 @@
     generation_size=5,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18201,8 +16334,6 @@
     generation_size=5,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18219,8 +16350,6 @@
     generation_size=5,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18237,8 +16366,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18255,8 +16382,6 @@
     generation_size=-1,
     metric=[Metrics.acc_golds_likelihood],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18273,8 +16398,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18291,8 +16414,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18314,8 +16435,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18337,8 +16456,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18360,8 +16477,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18383,8 +16498,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18406,8 +16519,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18429,8 +16540,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18452,8 +16561,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18475,8 +16582,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18498,8 +16603,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18521,8 +16624,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18544,8 +16645,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18567,8 +16666,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18590,8 +16687,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18613,8 +16708,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18636,8 +16729,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18659,8 +16750,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18682,8 +16771,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18705,8 +16792,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18728,8 +16813,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18751,8 +16834,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18774,8 +16855,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18797,8 +16876,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18820,8 +16897,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18843,8 +16918,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18866,8 +16939,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18889,8 +16960,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18912,8 +16981,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18935,8 +17002,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18958,8 +17023,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -18981,8 +17044,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19004,8 +17065,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19027,8 +17086,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19050,8 +17107,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19073,8 +17128,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19096,8 +17149,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19119,8 +17170,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19142,8 +17191,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19165,8 +17212,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19188,8 +17233,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19211,8 +17254,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19234,8 +17275,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19257,8 +17296,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19280,8 +17317,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19303,8 +17338,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19326,8 +17359,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19349,8 +17380,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19372,8 +17401,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19395,8 +17422,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19418,8 +17443,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19441,8 +17464,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19464,8 +17485,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19487,8 +17506,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19510,8 +17527,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19533,8 +17548,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19556,8 +17569,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19579,8 +17590,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19602,8 +17611,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19625,8 +17632,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19648,8 +17653,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19671,8 +17674,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19694,8 +17695,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19717,8 +17716,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19740,8 +17737,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19763,8 +17758,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19786,8 +17779,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19809,8 +17800,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19832,8 +17821,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19855,8 +17842,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19878,8 +17863,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19901,8 +17884,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19924,8 +17905,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19947,8 +17926,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19970,8 +17947,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -19993,8 +17968,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20016,8 +17989,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20039,8 +18010,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20062,8 +18031,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20085,8 +18052,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20108,8 +18073,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20131,8 +18094,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20154,8 +18115,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20177,8 +18136,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20200,8 +18157,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20223,8 +18178,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20246,8 +18199,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20269,8 +18220,6 @@
         Metrics.prefix_quasi_exact_match,
     ],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20287,8 +18236,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20305,8 +18252,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20323,8 +18268,6 @@
     generation_size=-1,
     metric=[Metrics.word_perplexity, Metrics.byte_perplexity, Metrics.bits_per_byte],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20341,8 +18284,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20359,8 +18300,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20377,8 +18316,6 @@
     generation_size=1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20395,8 +18332,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20413,8 +18348,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20431,8 +18364,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20449,8 +18380,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20467,8 +18396,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20485,8 +18412,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20503,8 +18428,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20521,8 +18444,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20539,8 +18460,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20557,8 +18476,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20575,8 +18492,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20593,8 +18508,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20611,8 +18524,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20629,8 +18540,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20647,8 +18556,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20665,8 +18572,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20683,8 +18588,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20701,8 +18604,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20719,8 +18620,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20737,8 +18636,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20755,8 +18652,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20773,8 +18668,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20791,8 +18684,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20809,8 +18700,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20827,8 +18716,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20845,8 +18732,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20863,8 +18748,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20881,8 +18764,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20899,8 +18780,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20917,8 +18796,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20935,8 +18812,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20953,8 +18828,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20971,8 +18844,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -20989,8 +18860,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21007,8 +18876,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21025,8 +18892,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21043,8 +18908,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21061,8 +18924,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21079,8 +18940,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21097,8 +18956,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21115,8 +18972,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21133,8 +18988,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21151,8 +19004,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21169,8 +19020,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21187,8 +19036,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21205,8 +19052,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21223,8 +19068,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21241,8 +19084,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21259,8 +19100,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21277,8 +19116,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21295,8 +19132,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21313,8 +19148,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21331,8 +19164,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21349,8 +19180,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21367,8 +19196,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21385,8 +19212,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21403,8 +19228,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21421,8 +19244,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21439,8 +19260,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21457,8 +19276,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21475,8 +19292,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21493,8 +19308,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21511,8 +19324,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21529,8 +19340,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21547,8 +19356,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21565,8 +19372,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21583,8 +19388,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21601,8 +19404,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21619,8 +19420,6 @@
     generation_size=100,
     metric=[Metrics.bleu],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21637,8 +19436,6 @@
     generation_size=100,
     metric=[Metrics.bleu],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21655,8 +19452,6 @@
     generation_size=100,
     metric=[Metrics.bleu],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21673,8 +19468,6 @@
     generation_size=100,
     metric=[Metrics.bleu],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21691,8 +19484,6 @@
     generation_size=100,
     metric=[Metrics.bleu],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21709,8 +19500,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21727,8 +19516,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21745,8 +19532,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21763,8 +19548,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21781,8 +19564,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21799,8 +19580,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21817,8 +19596,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21835,8 +19612,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21853,8 +19628,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21871,8 +19644,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21889,8 +19660,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21907,8 +19676,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21925,8 +19692,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21943,8 +19708,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21961,8 +19724,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21979,8 +19740,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -21997,8 +19756,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22015,8 +19772,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22033,8 +19788,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22051,8 +19804,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22069,8 +19820,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22087,8 +19836,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22105,8 +19852,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22123,8 +19868,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22141,8 +19884,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22159,8 +19900,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22177,8 +19916,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22195,8 +19932,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22213,8 +19948,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22231,8 +19964,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22249,8 +19980,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22267,8 +19996,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22285,8 +20012,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22303,8 +20028,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22321,8 +20044,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22339,8 +20060,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22357,8 +20076,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22375,8 +20092,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22393,8 +20108,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22411,8 +20124,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22429,8 +20140,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22447,8 +20156,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22465,8 +20172,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22483,8 +20188,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22501,8 +20204,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22519,8 +20220,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22537,8 +20236,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22555,8 +20252,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22573,8 +20268,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22591,8 +20284,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22609,8 +20300,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22627,8 +20316,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22645,8 +20332,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22663,8 +20348,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22681,8 +20364,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22699,8 +20380,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22717,8 +20396,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22735,8 +20412,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22753,8 +20428,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22771,8 +20444,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22789,8 +20460,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22807,8 +20476,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22825,8 +20492,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22843,8 +20508,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22861,8 +20524,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22879,8 +20540,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22897,8 +20556,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22915,8 +20572,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22933,8 +20588,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22951,8 +20604,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22969,8 +20620,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -22987,8 +20636,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23005,8 +20652,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23023,8 +20668,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23041,8 +20684,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23059,8 +20700,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23077,8 +20716,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23095,8 +20732,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23113,8 +20748,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23131,8 +20764,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23149,8 +20780,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23167,8 +20796,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23185,8 +20812,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23203,8 +20828,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23221,8 +20844,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23239,8 +20860,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23257,8 +20876,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23275,8 +20892,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23293,8 +20908,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23311,8 +20924,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23329,8 +20940,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23347,8 +20956,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23365,8 +20972,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23383,8 +20988,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23401,8 +21004,6 @@
     generation_size=None,
     metric=[Metrics.bleu, Metrics.chrf, Metrics.ter],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23419,8 +21020,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23437,8 +21036,6 @@
     generation_size=1,
     metric=[Metrics.perfect_exact_match],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23455,8 +21052,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23473,8 +21068,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23491,8 +21084,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23509,8 +21100,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23527,8 +21116,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23545,8 +21132,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23563,8 +21148,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23581,8 +21164,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23599,8 +21180,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23617,8 +21196,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23635,8 +21212,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23653,8 +21228,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23671,8 +21244,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23689,8 +21260,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23707,8 +21276,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23725,8 +21292,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23743,8 +21308,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23761,8 +21324,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23779,8 +21340,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23797,8 +21356,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23815,8 +21372,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23833,8 +21388,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23851,8 +21404,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23869,8 +21420,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23887,8 +21436,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23905,8 +21452,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23923,8 +21468,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23941,8 +21484,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23959,8 +21500,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
@@ -23977,8 +21516,6 @@
     generation_size=-1,
     metric=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    output_regex=None,
-    frozen=False,
     trust_dataset=True,
     version=0,
 )
diff --git a/src/lighteval/tasks/lighteval_task.py b/src/lighteval/tasks/lighteval_task.py
index 58724242e..ea01f81e4 100644
--- a/src/lighteval/tasks/lighteval_task.py
+++ b/src/lighteval/tasks/lighteval_task.py
@@ -86,8 +86,6 @@ class LightevalTaskConfig:
         truncated_num_docs (bool): Whether less than the total number of documents were used
         trust_dataset (bool): Whether to trust the dataset at execution or not
         version (int): The version of the task. Defaults to 0. Can be increased if the underlying dataset or the prompt changes.
-        output_regex (str)
-        frozen (bool)
     """
 
     name: str
@@ -112,7 +110,6 @@ class LightevalTaskConfig:
     generation_size: Optional[int] = None
     generation_grammar: Optional[TextGenerationInputGrammarType] = None
     stop_sequence: Optional[ListLike[str]] = None
-    output_regex: Optional[str] = None
     num_samples: Optional[list[int]] = None
 
     suite: ListLike[str] = field(default_factory=lambda: ["custom"])
@@ -124,9 +121,6 @@ class LightevalTaskConfig:
 
     version: int = 0
 
-    # Currently unused
-    frozen: bool = False
-
     def __post_init__(self):
         # If we got a Metrics enums instead of a Metric, we convert
         self.metric = [metric.value if isinstance(metric, Metrics) else metric for metric in self.metric]

From de8dba39d26df6db3ab7b6fc46780ddb4e183ab3 Mon Sep 17 00:00:00 2001
From: 3 a l i <58257628+alielfilali01@users.noreply.github.com>
Date: Wed, 11 Dec 2024 18:57:24 +0400
Subject: [PATCH 07/12] Add new Arabic benchmarks (5) and enhance existing
 tasks (#372)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

* Update arabic_evals.py

Add new Arabic benchmarks and update existing tasks

- Renamed `arabic_mmlu` to `arabic_mmlu_mt` to highlight its machine-translated origin.
- Added new benchmarks: `arabic_mmlu` ArabicMMLU (https://arxiv.org/abs/2402.12840), `arabic_mmlu_ht` (human-translated), and `MadinahQA` from MBZUAI. As well as `arabic_mmmlu` (OpenAI MMMLU), and `AraTrust` a trustworthiness benchmark for Arabic LLMs (https://arxiv.org/abs/2403.09017).
- Enhanced prompt functions for better flexibility in answer options.

* Update and rename OALL_tasks.txt to OALL_v1_tasks.txt

Rename file to refelect that it is v1 leaderboard tasks

* Create OALL_v2_tasks.txt

Tasks for v2 of OALL

* Update all_arabic_tasks.txt

add new and renamed tasks

* Update arabic_evals.py

Fix formatting issues for

* Update all_arabic_tasks.txt

Add missing task: OpenAI's MMMLU arabic subset

* Update all_arabic_tasks.txt

Correct order

* Update arabic_evals.py

remove openai mmmlu task following the discussion here: https://github.com/huggingface/lighteval/pull/372

* Update all_arabic_tasks.txt

remove openai mmmlu task following the discussion here: https://github.com/huggingface/lighteval/pull/372

* Update tasks.py

Adding a templated version of arabic mmlu based on @hynky1999 request in the #372 PR

* Update tasks.py

remove arabic_mmlu_templated_tasks

---------

Co-authored-by: Clémentine Fourrier <22726840+clefourrier@users.noreply.github.com>
Co-authored-by: Nathan Habib <30601243+NathanHB@users.noreply.github.com>
---
 community_tasks/arabic_evals.py           | 354 ++++++++++++++++++--
 examples/tasks/OALL_tasks.txt             | 136 --------
 examples/tasks/OALL_v1_tasks.txt          | 136 ++++++++
 examples/tasks/OALL_v2_tasks.txt          | 117 +++++++
 examples/tasks/all_arabic_tasks.txt       | 379 ++++++++++++++--------
 src/lighteval/tasks/multilingual/tasks.py |   1 +
 6 files changed, 817 insertions(+), 306 deletions(-)
 delete mode 100644 examples/tasks/OALL_tasks.txt
 create mode 100644 examples/tasks/OALL_v1_tasks.txt
 create mode 100644 examples/tasks/OALL_v2_tasks.txt

diff --git a/community_tasks/arabic_evals.py b/community_tasks/arabic_evals.py
index f575b5f07..382a780d3 100644
--- a/community_tasks/arabic_evals.py
+++ b/community_tasks/arabic_evals.py
@@ -39,9 +39,91 @@
 LETTER_INDICES_AR = ["أ", "ب", "ج", "د", "هـ", "و", "ز", "ح", "ط", "ي", "ك", "ل", "م", "ن", "س", "ع", "ف", "ص", "ق", "ر", "ش", "ت", "ث", "خ", "ذ", "ض", "ظ", "غ"]
 # fmt: on
 
-# ARABIC MMLU ##
+# ArabicMMLU
 # fmt: off
 ARABIC_MMLU_SUBSETS = [
+    "All", "Islamic Studies", "Islamic Studies (Middle School)", "Islamic Studies (Primary School)", "Islamic Studies (High School)", "Driving Test",
+    "Natural Science (Middle School)", "Natural Science (Primary School)", "History (Middle School)", "History (Primary School)", "History (High School)", "General Knowledge",
+    "General Knowledge (Middle School)", "General Knowledge (Primary School)", "Law (Professional)", "Physics (High School)", "Social Science (Middle School)",
+    "Social Science (Primary School)", "Management (University)", "Arabic Language (Middle School)", "Arabic Language (Primary School)", "Arabic Language (High School)", "Political Science (University)",
+    "Philosophy (High School)", "Accounting (University)", "Computer Science (Middle School)", "Computer Science (Primary School)", "Computer Science (High School)", "Computer Science (University)",
+    "Geography (Middle School)", "Geography (Primary School)", "Geography (High School)", "Math (Primary School)", "Biology (High School)", "Economics (Middle School)",
+    "Economics (High School)", "Economics (University)", "Arabic Language (General)", "Arabic Language (Grammar)", "Civics (Middle School)", "Civics (High School)"
+]
+# fmt: on
+
+
+def arabic_mmlu_pfn(line, task_name: str = None):
+    instruction = "السؤال التالي هو سؤال متعدد الإختيارات. اختر الإجابة الصحيحة:\n\n"
+
+    # Define the mapping from Latin to Arabic letters
+    latin_to_arabic = {"A": "أ", "B": "ب", "C": "ج", "D": "د", "E": "هـ"}
+
+    # Create a list of valid choices with corresponding Arabic keys
+    choices = []
+    valid_keys_latin = []
+    valid_keys_arabic = []
+
+    # Enumerate through the options and append the valid ones
+    for idx, key in enumerate(["A", "B", "C", "D", "E"]):
+        option = line.get(f"Option {idx + 1}")
+        if option:  # Check if option is not null
+            choices.append(option)
+            valid_keys_latin.append(key)  # Append the Latin key (A, B, C, D, E)
+            valid_keys_arabic.append(latin_to_arabic[key])  # Append the corresponding Arabic letter
+
+    # Find the correct index for the answer key in the Arabic version
+    answer_index = valid_keys_latin.index(line["Answer Key"])
+
+    # Construct the query with Arabic letters
+    query = f"{instruction}{line['Question']}\n"
+    query += "".join([f"{key}. {choice}\n" for key, choice in zip(valid_keys_arabic, choices)])
+    query += "الإجابة:"
+
+    return Doc(
+        task_name=task_name,
+        query=query,
+        choices=valid_keys_arabic,  # Return only valid choices (Arabic keys)
+        gold_index=answer_index,  # Correct index in the valid Arabic keys
+        instruction=instruction,
+        target_for_fewshot_sorting=valid_keys_arabic[answer_index],  # Correct answer in Arabic form
+    )
+
+
+class CustomArabicMMLUTask(LightevalTaskConfig):
+    def __init__(
+        self,
+        name,
+        hf_subset,
+    ):
+        super().__init__(
+            name=name,
+            hf_subset=hf_subset,
+            prompt_function=arabic_mmlu_pfn,
+            hf_repo="MBZUAI/ArabicMMLU",
+            metric=[Metrics.loglikelihood_acc_norm],
+            hf_avail_splits=["test"],
+            evaluation_splits=["test"],
+            few_shots_split=["dev"],
+            few_shots_select="sequential",
+            suite=["community"],
+            generation_size=-1,
+            stop_sequence=None,
+            output_regex=None,
+            frozen=False,
+            trust_dataset=True,
+            version=0,
+        )
+
+
+ARABIC_MMLU_TASKS = [
+    CustomArabicMMLUTask(name=f"arabic_mmlu:{subset}", hf_subset=subset) for subset in ARABIC_MMLU_SUBSETS
+]
+
+
+# ARABIC MMLU HT ##
+# fmt: off
+ARABIC_MMLU_HT_SUBSETS = [
     "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science",
     "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering",
     "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science",
@@ -54,13 +136,78 @@
 # fmt: on
 
 
-def mmlu_arabic(line, task_name: str = None):
-    topic = line["subject"]
-    instruction = f"الأسئلة التالية هي أسئلة متعددة الإختيارات مع الجواب الصحيح حول {topic.replace('_', ' ')}. \n\n"
+def arabic_mmlu_ht_pfn(line, task_name: str = None):
+    instruction = "السؤال التالي هو سؤال متعدد الإختيارات. اختر الإجابة الصحيحة:\n\n"
+    choices = line["choices"]
+    answer_index = line["answer"]  # It is an int reflecting the index of correct answer in line["choices"]
+
+    query = f"{instruction}{line['question']}\n"
+    query += "".join([f"{idx}. {choice}\n" for idx, choice in enumerate(choices, start=1)])
+    query += "الإجابة:"
+
+    return Doc(
+        task_name=task_name,
+        query=query,
+        choices=[str(i) for i in range(1, len(choices) + 1)],  # List of strings instead of ints
+        gold_index=answer_index,
+        instruction=instruction,
+        target_for_fewshot_sorting=str(answer_index),  # Assuming it's sorted based on the number
+    )
+
+
+class CustomArabicMMLUHTTask(LightevalTaskConfig):
+    def __init__(
+        self,
+        name,
+        hf_subset,
+    ):
+        super().__init__(
+            name=name,
+            hf_subset=hf_subset,
+            prompt_function=arabic_mmlu_ht_pfn,
+            hf_repo="MBZUAI/human_translated_arabic_mmlu",
+            metric=[Metrics.loglikelihood_acc_norm],
+            hf_avail_splits=["test"],
+            evaluation_splits=["test"],
+            few_shots_split=None,
+            few_shots_select=None,
+            suite=["community"],
+            generation_size=-1,
+            stop_sequence=None,
+            output_regex=None,
+            frozen=False,
+            trust_dataset=True,
+            version=0,
+        )
+
+
+ARABIC_MMLU_HT_TASKS = [
+    CustomArabicMMLUHTTask(name=f"arabic_mmlu_ht:{subset}", hf_subset=subset) for subset in ARABIC_MMLU_HT_SUBSETS
+]
+
+# ARABIC MMLU MT ##
+# fmt: off
+ARABIC_MMLU_MT_SUBSETS = [
+    "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science",
+    "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering",
+    "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science",
+    "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics",
+    "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history",
+    "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics",
+    "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law",
+    "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions"
+]
+# fmt: on
+
+
+def arabic_mmlu_mt_pfn(line, task_name: str = None):
+    instruction = "السؤال التالي هو سؤال متعدد الإختيارات. اختر الإجابة الصحيحة: أ، ب، ج، أو د... إلخ. \n\n"
     choices = [line["A"], line["B"], line["C"], line["D"]]
     # Answers are provided with roman letters - we look for the correct index in LETTER_INDICES,
     # it will then be applied to arabic letters
-    gold_ix = LETTER_INDICES.index(line["answer"])
+    answer_index = LETTER_INDICES.index(
+        line["answer"]
+    )  # line["answer"] is the correct answer. That's why we need to index it !
 
     query = f"{instruction}{line['question']}\n"
     query += "".join([f"{key}. {choice}\n" for key, choice in zip(LETTER_INDICES_AR[:4], choices)])
@@ -70,12 +217,12 @@ def mmlu_arabic(line, task_name: str = None):
         task_name=task_name,
         query=query,
         choices=LETTER_INDICES_AR[:4],
-        gold_index=gold_ix,
+        gold_index=answer_index,
         instruction=instruction,
     )
 
 
-class CustomArabicMMLUTask(LightevalTaskConfig):
+class CustomArabicMMLUMTTask(LightevalTaskConfig):
     def __init__(
         self,
         name,
@@ -84,7 +231,7 @@ def __init__(
         super().__init__(
             name=name,
             hf_subset=hf_subset,
-            prompt_function=mmlu_arabic,
+            prompt_function=arabic_mmlu_mt_pfn,
             hf_repo="OALL/Arabic_MMLU",
             metric=[Metrics.loglikelihood_acc_norm],
             hf_avail_splits=["test", "dev"],
@@ -101,10 +248,11 @@ def __init__(
         )
 
 
-ARABIC_MMLU_TASKS = [
-    CustomArabicMMLUTask(name=f"arabic_mmlu:{subset}", hf_subset=subset) for subset in ARABIC_MMLU_SUBSETS
+ARABIC_MMLU_MT_TASKS = [
+    CustomArabicMMLUMTTask(name=f"arabic_mmlu_mt:{subset}", hf_subset=subset) for subset in ARABIC_MMLU_MT_SUBSETS
 ]
 
+
 # ACVA ##
 # fmt: off
 ACVA_SUBSETS = [
@@ -120,7 +268,7 @@ def __init__(
 # fmt: on
 
 
-def acva(line, task_name: str = None):
+def acva_pfn(line, task_name: str = None):
     question = line["question"]
     answer = line["answer"]
 
@@ -141,7 +289,7 @@ def __init__(
         super().__init__(
             name=name,
             hf_subset=hf_subset,
-            prompt_function=acva,
+            prompt_function=acva_pfn,
             hf_repo="OALL/ACVA",
             metric=[Metrics.loglikelihood_acc_norm],
             hf_avail_splits=["test", "validation"],
@@ -161,7 +309,69 @@ def __init__(
 ACVA_TASKS = [CustomACVATask(name=f"acva:{subset}", hf_subset=subset) for subset in ACVA_SUBSETS]
 
 
-def arabic_exams(line, task_name: str = None):
+# AraTrust ##
+# fmt: off
+ARATRUST_SUBSETS = [
+    "Trustfulness", "MentalHealth", "PhysicalHealth", "Offensive", "Ethics", "Privacy", "Unfairness", "Illegal",
+]
+# fmt: on
+
+
+def aratrust_pfn(line, task_name: str = None):
+    instruction = "السؤال التالي هو سؤال متعدد الإختيارات. اختر الإجابة الصحيحة: أ، ب أو ج. \n\n"
+    choices = [line["A"], line["B"], line["C"]]
+    # Answers are provided with roman letters - we look for the correct index in LETTER_INDICES,
+    # it will then be applied to arabic letters
+    answer_index = LETTER_INDICES_AR.index(
+        line["Answer"]
+    )  # line["answer"] is the correct answer. That's why we need to index it !
+
+    query = f"{instruction}{line['Question']}\n"
+    query += "".join([f"{choice}\n" for choice in choices])
+    query += "الإجابة:"
+
+    return Doc(
+        task_name=task_name,
+        query=query,
+        choices=LETTER_INDICES_AR[:3],
+        gold_index=answer_index,
+        instruction=instruction,
+        target_for_fewshot_sorting=LETTER_INDICES_AR[answer_index],
+    )
+
+
+class CustomAraTrustTask(LightevalTaskConfig):
+    def __init__(
+        self,
+        name,
+        hf_subset,
+    ):
+        super().__init__(
+            name=name,
+            hf_subset=hf_subset,
+            prompt_function=aratrust_pfn,
+            hf_repo="asas-ai/AraTrust-categorized",
+            metric=[
+                Metrics.f1_score
+            ],  # Following the paper (AraTrust: An Evaluation of Trustworthiness for LLMs in Arabic)[https://arxiv.org/abs/2403.09017]
+            hf_avail_splits=["train"],
+            evaluation_splits=["train"],
+            few_shots_split=None,
+            few_shots_select=None,
+            suite=["community"],
+            generation_size=-1,
+            stop_sequence=[],
+            output_regex=None,
+            frozen=False,
+            trust_dataset=True,
+            version=0,
+        )
+
+
+ARATRUST_TASKS = [CustomAraTrustTask(name=f"aratrust:{subset}", hf_subset=subset) for subset in ARATRUST_SUBSETS]
+
+
+def arabic_exams_pfn(line, task_name: str = None):
     topic = line["subject"]
     question = line["question"]
     choices = [line["A"], line["B"], line["C"], line["D"]]
@@ -186,7 +396,7 @@ def arabic_exams(line, task_name: str = None):
 # ARABIC EXAMS ##
 arabic_exams_task = LightevalTaskConfig(
     name="arabic_exams",
-    prompt_function=arabic_exams,
+    prompt_function=arabic_exams_pfn,
     suite=["community"],
     hf_repo="OALL/Arabic_EXAMS",
     hf_subset="default",
@@ -210,7 +420,7 @@ def arabic_exams(line, task_name: str = None):
 # fmt: on
 
 
-def alghafa_prompt(line, task_name: str = None):
+def alghafa_pfn(line, task_name: str = None):
     question = line["query"]
     answer_index = int(line["label"])
     # Dynamically determining the choices by excluding '__few_shots', 'query' and 'label'
@@ -241,7 +451,7 @@ def __init__(
         super().__init__(
             name=name,
             hf_subset=hf_subset,
-            prompt_function=alghafa_prompt,
+            prompt_function=alghafa_pfn,
             hf_repo="OALL/AlGhafa-Arabic-LLM-Benchmark-Native",
             metric=[Metrics.loglikelihood_acc_norm],
             hf_avail_splits=["test", "validation"],
@@ -253,6 +463,7 @@ def __init__(
             stop_sequence=None,
             output_regex=None,
             frozen=False,
+            trust_dataset=True,
             version=0,
         )
 
@@ -263,7 +474,7 @@ def __init__(
 # race_ar
 race_ar_task = LightevalTaskConfig(
     name="race_ar",
-    prompt_function=alghafa_prompt,
+    prompt_function=alghafa_pfn,
     suite=["community"],
     hf_repo="OALL/AlGhafa-Arabic-LLM-Benchmark-Translated",
     hf_subset="race_ar",
@@ -280,7 +491,7 @@ def __init__(
 # piqa_ar
 piqa_ar_task = LightevalTaskConfig(
     name="piqa_ar",
-    prompt_function=alghafa_prompt,
+    prompt_function=alghafa_pfn,
     suite=["community"],
     hf_repo="OALL/AlGhafa-Arabic-LLM-Benchmark-Translated",
     hf_subset="piqa_ar",
@@ -297,7 +508,7 @@ def __init__(
 # arc_easy_ar
 arc_easy_ar_task = LightevalTaskConfig(
     name="arc_easy_ar",
-    prompt_function=alghafa_prompt,
+    prompt_function=alghafa_pfn,
     suite=["community"],
     hf_repo="OALL/AlGhafa-Arabic-LLM-Benchmark-Translated",
     hf_subset="arc_easy_ar",
@@ -314,7 +525,7 @@ def __init__(
 # arc_challenge_okapi_ar
 arc_challenge_okapi_ar_task = LightevalTaskConfig(
     name="arc_challenge_okapi_ar",
-    prompt_function=alghafa_prompt,
+    prompt_function=alghafa_pfn,
     suite=["community"],
     hf_repo="OALL/AlGhafa-Arabic-LLM-Benchmark-Translated",
     hf_subset="arc_challenge_okapi_ar",
@@ -331,7 +542,7 @@ def __init__(
 # mmlu_okapi_ar
 mmlu_okapi_ar_task = LightevalTaskConfig(
     name="mmlu_okapi_ar",
-    prompt_function=alghafa_prompt,
+    prompt_function=alghafa_pfn,
     suite=["community"],
     hf_repo="OALL/AlGhafa-Arabic-LLM-Benchmark-Translated",
     hf_subset="mmlu_okapi_ar",
@@ -348,7 +559,7 @@ def __init__(
 # openbook_qa_ext_ar
 openbook_qa_ext_ar_task = LightevalTaskConfig(
     name="openbook_qa_ext_ar",
-    prompt_function=alghafa_prompt,
+    prompt_function=alghafa_pfn,
     suite=["community"],
     hf_repo="OALL/AlGhafa-Arabic-LLM-Benchmark-Translated",
     hf_subset="openbook_qa_ext_ar",
@@ -363,9 +574,7 @@ def __init__(
 
 
 # boolq_ar
-
-
-def boolq_prompt_arabic(line, task_name: str = None):
+def boolq_arabic_pfn(line, task_name: str = None):
     question = line["question"]
     passage = line["passage"]
     instruction = "بناء على المقطع التالي، أجب عن السؤال ب نعم أو لا"
@@ -388,7 +597,7 @@ def boolq_prompt_arabic(line, task_name: str = None):
 
 boolq_ar_task = LightevalTaskConfig(
     name="boolq_ar",
-    prompt_function=boolq_prompt_arabic,
+    prompt_function=boolq_arabic_pfn,
     suite=["community"],
     hf_repo="OALL/AlGhafa-Arabic-LLM-Benchmark-Translated",
     hf_subset="boolq_ar",
@@ -403,7 +612,7 @@ def boolq_prompt_arabic(line, task_name: str = None):
 
 
 # copa_ext_ar
-def copa_prompt_arabic(line, task_name: str = None):
+def copa_arabic_pfn(line, task_name: str = None):
     premise = line["premise"]
     choices = [line["choice1"], line["choice2"]]
     question_map = {"cause": "لأن", "effect": "لذلك"}
@@ -423,7 +632,7 @@ def copa_prompt_arabic(line, task_name: str = None):
 
 copa_ext_ar_task = LightevalTaskConfig(
     name="copa_ext_ar",
-    prompt_function=copa_prompt_arabic,
+    prompt_function=copa_arabic_pfn,
     suite=["community"],
     hf_repo="OALL/AlGhafa-Arabic-LLM-Benchmark-Translated",
     hf_subset="copa_ext_ar",
@@ -438,7 +647,7 @@ def copa_prompt_arabic(line, task_name: str = None):
 
 
 # hellaswag_okapi_ar
-def hellaswag_prompt_arabic(line, task_name: str = None):
+def hellaswag_arabic_pfn(line, task_name: str = None):
     ctx = re.sub(r"\[.*?\]", "", line["ctx"])  # Remove latin words within brackets
     endings = [
         re.sub(r"\[.*?\]", "", e) for e in eval(line["endings"])
@@ -467,7 +676,7 @@ def hellaswag_prompt_arabic(line, task_name: str = None):
 
 hellaswag_okapi_ar_task = LightevalTaskConfig(
     name="hellaswag_okapi_ar",
-    prompt_function=hellaswag_prompt_arabic,
+    prompt_function=hellaswag_arabic_pfn,
     suite=["community"],
     hf_repo="OALL/AlGhafa-Arabic-LLM-Benchmark-Translated",
     hf_subset="hellaswag_okapi_ar",
@@ -482,7 +691,7 @@ def hellaswag_prompt_arabic(line, task_name: str = None):
 
 
 # toxigen_ar
-def toxigen_prompt_arabic(line, task_name: str = None):
+def toxigen_arabic_pfn(line, task_name: str = None):
     text = line["text"]
     label = 1 if ((line["toxicity_ai"] + line["toxicity_human"]) > 5.5) else 0
     instruction = 'هل العبارة التالية تحض على الكراهية؟ قم بالرد بـ"نعم" أو "لا".'
@@ -504,7 +713,7 @@ def toxigen_prompt_arabic(line, task_name: str = None):
 
 toxigen_ar_task = LightevalTaskConfig(
     name="toxigen_ar",
-    prompt_function=toxigen_prompt_arabic,
+    prompt_function=toxigen_arabic_pfn,
     suite=["community"],
     hf_repo="OALL/AlGhafa-Arabic-LLM-Benchmark-Translated",
     hf_subset="toxigen_ar",
@@ -519,7 +728,7 @@ def toxigen_prompt_arabic(line, task_name: str = None):
 
 
 # sciq_ar
-def sciq_prompt_arabic(line, task_name: str = None):
+def sciq_arabic_pfn(line, task_name: str = None):
     support = line["support"]
     question = line["question"]
     correct_answer = line["correct_answer"]
@@ -555,7 +764,7 @@ def sciq_prompt_arabic(line, task_name: str = None):
 
 sciq_ar_task = LightevalTaskConfig(
     name="sciq_ar",
-    prompt_function=sciq_prompt_arabic,
+    prompt_function=sciq_arabic_pfn,
     suite=["community"],
     hf_repo="OALL/AlGhafa-Arabic-LLM-Benchmark-Translated",
     hf_subset="sciq_ar",
@@ -569,10 +778,87 @@ def sciq_prompt_arabic(line, task_name: str = None):
 )
 
 
+# madinah_qa
+# fmt: off
+MADINAH_QA_SUBSETS = ["Arabic Language (General)", "Arabic Language (Grammar)"]
+# fmt: on
+
+
+def madinah_qa_pfn(line, task_name: str = None):
+    instruction = "السؤال التالي هو سؤال متعدد الإختيارات. اختر الإجابة الصحيحة:\n\n"
+
+    # Define the mapping from Latin to Arabic letters
+    latin_to_arabic = {"A": "أ", "B": "ب", "C": "ج", "D": "د", "E": "هـ"}
+
+    # Create a list of valid choices with corresponding Arabic keys
+    choices = []
+    valid_keys_latin = []
+    valid_keys_arabic = []
+
+    # Enumerate through the options and append the valid ones
+    for idx, key in enumerate(["A", "B", "C", "D", "E"]):
+        option = line.get(f"Option {idx + 1}")
+        if option:  # Check if option is not null
+            choices.append(option)
+            valid_keys_latin.append(key)  # Append the Latin key (A, B, C, D, E)
+            valid_keys_arabic.append(latin_to_arabic[key])  # Append the corresponding Arabic letter
+
+    # Find the correct index for the answer key in the Arabic version
+    answer_index = valid_keys_latin.index(line["Answer Key"])
+
+    query = f"{instruction}{line['Question']}\n"
+    query += "".join([f"{key}. {choice}\n" for key, choice in zip(valid_keys_arabic, choices)])
+    query += "الإجابة:"
+
+    return Doc(
+        task_name=task_name,
+        query=query,
+        choices=choices,
+        gold_index=answer_index,  # Correct index in the valid keys
+        instruction=instruction,
+        target_for_fewshot_sorting=valid_keys_latin[answer_index],  # Correct answer in Latin form
+    )
+
+
+class CustomMadinahQATask(LightevalTaskConfig):
+    def __init__(
+        self,
+        name,
+        hf_subset,
+    ):
+        super().__init__(
+            name=name,
+            hf_subset=hf_subset,
+            prompt_function=madinah_qa_pfn,
+            hf_repo="MBZUAI/MadinahQA",
+            metric=[Metrics.loglikelihood_acc_norm],
+            hf_avail_splits=["test"],
+            evaluation_splits=["test"],
+            few_shots_split=["dev"],
+            few_shots_select="sequential",
+            suite=["community"],
+            generation_size=-1,
+            stop_sequence=None,
+            output_regex=None,
+            frozen=False,
+            trust_dataset=True,
+            version=0,
+        )
+
+
+MADINAH_QA_TASKS = [
+    CustomMadinahQATask(name=f"madinah_qa:{subset}", hf_subset=subset) for subset in MADINAH_QA_SUBSETS
+]
+
+
 TASKS_TABLE = (
     ARABIC_MMLU_TASKS
+    + ARABIC_MMLU_HT_TASKS
+    + ARABIC_MMLU_MT_TASKS
     + ACVA_TASKS
     + ALGHAFA_TASKS
+    + ARATRUST_TASKS
+    + MADINAH_QA_TASKS
     + [arabic_exams_task]
     + [race_ar_task]
     + [piqa_ar_task]
diff --git a/examples/tasks/OALL_tasks.txt b/examples/tasks/OALL_tasks.txt
deleted file mode 100644
index 346d062c6..000000000
--- a/examples/tasks/OALL_tasks.txt
+++ /dev/null
@@ -1,136 +0,0 @@
-lighteval|xstory_cloze:ar|0|0
-community|arabic_mmlu:abstract_algebra|5|1
-community|arabic_mmlu:anatomy|5|1
-community|arabic_mmlu:astronomy|5|1
-community|arabic_mmlu:business_ethics|5|1
-community|arabic_mmlu:clinical_knowledge|5|1
-community|arabic_mmlu:college_biology|5|1
-community|arabic_mmlu:college_chemistry|5|1
-community|arabic_mmlu:college_computer_science|5|1
-community|arabic_mmlu:college_mathematics|5|1
-community|arabic_mmlu:college_medicine|5|1
-community|arabic_mmlu:college_physics|5|1
-community|arabic_mmlu:computer_security|5|1
-community|arabic_mmlu:conceptual_physics|5|1
-community|arabic_mmlu:econometrics|5|1
-community|arabic_mmlu:electrical_engineering|5|1
-community|arabic_mmlu:elementary_mathematics|5|1
-community|arabic_mmlu:formal_logic|5|1
-community|arabic_mmlu:global_facts|5|1
-community|arabic_mmlu:high_school_biology|5|1
-community|arabic_mmlu:high_school_chemistry|5|1
-community|arabic_mmlu:high_school_computer_science|5|1
-community|arabic_mmlu:high_school_european_history|5|1
-community|arabic_mmlu:high_school_geography|5|1
-community|arabic_mmlu:high_school_government_and_politics|5|1
-community|arabic_mmlu:high_school_macroeconomics|5|1
-community|arabic_mmlu:high_school_mathematics|5|1
-community|arabic_mmlu:high_school_microeconomics|5|1
-community|arabic_mmlu:high_school_physics|5|1
-community|arabic_mmlu:high_school_psychology|5|1
-community|arabic_mmlu:high_school_statistics|5|1
-community|arabic_mmlu:high_school_us_history|5|1
-community|arabic_mmlu:high_school_world_history|5|1
-community|arabic_mmlu:human_aging|5|1
-community|arabic_mmlu:human_sexuality|5|1
-community|arabic_mmlu:international_law|5|1
-community|arabic_mmlu:jurisprudence|5|1
-community|arabic_mmlu:logical_fallacies|5|1
-community|arabic_mmlu:machine_learning|5|1
-community|arabic_mmlu:management|5|1
-community|arabic_mmlu:marketing|5|1
-community|arabic_mmlu:medical_genetics|5|1
-community|arabic_mmlu:miscellaneous|5|1
-community|arabic_mmlu:moral_disputes|5|1
-community|arabic_mmlu:moral_scenarios|5|1
-community|arabic_mmlu:nutrition|5|1
-community|arabic_mmlu:philosophy|5|1
-community|arabic_mmlu:prehistory|5|1
-community|arabic_mmlu:professional_accounting|5|1
-community|arabic_mmlu:professional_law|5|1
-community|arabic_mmlu:professional_medicine|5|1
-community|arabic_mmlu:professional_psychology|5|1
-community|arabic_mmlu:public_relations|5|1
-community|arabic_mmlu:security_studies|5|1
-community|arabic_mmlu:sociology|5|1
-community|arabic_mmlu:us_foreign_policy|5|1
-community|arabic_mmlu:virology|5|1
-community|arabic_mmlu:world_religions|5|1
-community|arabic_exams|5|1
-community|acva:Algeria|5|1
-community|acva:Ancient_Egypt|5|1
-community|acva:Arab_Empire|5|1
-community|acva:Arabic_Architecture|5|1
-community|acva:Arabic_Art|5|1
-community|acva:Arabic_Astronomy|5|1
-community|acva:Arabic_Calligraphy|5|1
-community|acva:Arabic_Ceremony|5|1
-community|acva:Arabic_Clothing|5|1
-community|acva:Arabic_Culture|5|1
-community|acva:Arabic_Food|5|1
-community|acva:Arabic_Funeral|5|1
-community|acva:Arabic_Geography|5|1
-community|acva:Arabic_History|5|1
-community|acva:Arabic_Language_Origin|5|1
-community|acva:Arabic_Literature|5|1
-community|acva:Arabic_Math|5|1
-community|acva:Arabic_Medicine|5|1
-community|acva:Arabic_Music|5|1
-community|acva:Arabic_Ornament|5|1
-community|acva:Arabic_Philosophy|5|1
-community|acva:Arabic_Physics_and_Chemistry|5|1
-community|acva:Arabic_Wedding|5|1
-community|acva:Bahrain|5|1
-community|acva:Comoros|5|1
-community|acva:Egypt_modern|5|1
-community|acva:InfluenceFromAncientEgypt|5|1
-community|acva:InfluenceFromByzantium|5|1
-community|acva:InfluenceFromChina|5|1
-community|acva:InfluenceFromGreece|5|1
-community|acva:InfluenceFromIslam|5|1
-community|acva:InfluenceFromPersia|5|1
-community|acva:InfluenceFromRome|5|1
-community|acva:Iraq|5|1
-community|acva:Islam_Education|5|1
-community|acva:Islam_branches_and_schools|5|1
-community|acva:Islamic_law_system|5|1
-community|acva:Jordan|5|1
-community|acva:Kuwait|5|1
-community|acva:Lebanon|5|1
-community|acva:Libya|5|1
-community|acva:Mauritania|5|1
-community|acva:Mesopotamia_civilization|5|1
-community|acva:Morocco|5|1
-community|acva:Oman|5|1
-community|acva:Palestine|5|1
-community|acva:Qatar|5|1
-community|acva:Saudi_Arabia|5|1
-community|acva:Somalia|5|1
-community|acva:Sudan|5|1
-community|acva:Syria|5|1
-community|acva:Tunisia|5|1
-community|acva:United_Arab_Emirates|5|1
-community|acva:Yemen|5|1
-community|acva:communication|5|1
-community|acva:computer_and_phone|5|1
-community|acva:daily_life|5|1
-community|acva:entertainment|5|1
-community|alghafa:mcq_exams_test_ar|5|1
-community|alghafa:meta_ar_dialects|5|1
-community|alghafa:meta_ar_msa|5|1
-community|alghafa:multiple_choice_facts_truefalse_balanced_task|5|1
-community|alghafa:multiple_choice_grounded_statement_soqal_task|5|1
-community|alghafa:multiple_choice_grounded_statement_xglue_mlqa_task|5|1
-community|alghafa:multiple_choice_rating_sentiment_no_neutral_task|5|1
-community|alghafa:multiple_choice_rating_sentiment_task|5|1
-community|alghafa:multiple_choice_sentiment_task|5|1
-community|race_ar|5|1
-community|piqa_ar|5|1
-community|arc_easy_ar|5|1
-community|arc_challenge_okapi_ar|5|1
-community|openbook_qa_ext_ar|5|1
-community|boolq_ar|5|1
-community|copa_ext_ar|5|1
-community|hellaswag_okapi_ar|5|1
-community|toxigen_ar|5|1
-community|sciq_ar|5|1
diff --git a/examples/tasks/OALL_v1_tasks.txt b/examples/tasks/OALL_v1_tasks.txt
new file mode 100644
index 000000000..08e9a51cd
--- /dev/null
+++ b/examples/tasks/OALL_v1_tasks.txt
@@ -0,0 +1,136 @@
+lighteval|xstory_cloze:ar|0|0
+community|arabic_mmlu_mt:abstract_algebra|0|0
+community|arabic_mmlu_mt:anatomy|0|0
+community|arabic_mmlu_mt:astronomy|0|0
+community|arabic_mmlu_mt:business_ethics|0|0
+community|arabic_mmlu_mt:clinical_knowledge|0|0
+community|arabic_mmlu_mt:college_biology|0|0
+community|arabic_mmlu_mt:college_chemistry|0|0
+community|arabic_mmlu_mt:college_computer_science|0|0
+community|arabic_mmlu_mt:college_mathematics|0|0
+community|arabic_mmlu_mt:college_medicine|0|0
+community|arabic_mmlu_mt:college_physics|0|0
+community|arabic_mmlu_mt:computer_security|0|0
+community|arabic_mmlu_mt:conceptual_physics|0|0
+community|arabic_mmlu_mt:econometrics|0|0
+community|arabic_mmlu_mt:electrical_engineering|0|0
+community|arabic_mmlu_mt:elementary_mathematics|0|0
+community|arabic_mmlu_mt:formal_logic|0|0
+community|arabic_mmlu_mt:global_facts|0|0
+community|arabic_mmlu_mt:high_school_biology|0|0
+community|arabic_mmlu_mt:high_school_chemistry|0|0
+community|arabic_mmlu_mt:high_school_computer_science|0|0
+community|arabic_mmlu_mt:high_school_european_history|0|0
+community|arabic_mmlu_mt:high_school_geography|0|0
+community|arabic_mmlu_mt:high_school_government_and_politics|0|0
+community|arabic_mmlu_mt:high_school_macroeconomics|0|0
+community|arabic_mmlu_mt:high_school_mathematics|0|0
+community|arabic_mmlu_mt:high_school_microeconomics|0|0
+community|arabic_mmlu_mt:high_school_physics|0|0
+community|arabic_mmlu_mt:high_school_psychology|0|0
+community|arabic_mmlu_mt:high_school_statistics|0|0
+community|arabic_mmlu_mt:high_school_us_history|0|0
+community|arabic_mmlu_mt:high_school_world_history|0|0
+community|arabic_mmlu_mt:human_aging|0|0
+community|arabic_mmlu_mt:human_sexuality|0|0
+community|arabic_mmlu_mt:international_law|0|0
+community|arabic_mmlu_mt:jurisprudence|0|0
+community|arabic_mmlu_mt:logical_fallacies|0|0
+community|arabic_mmlu_mt:machine_learning|0|0
+community|arabic_mmlu_mt:management|0|0
+community|arabic_mmlu_mt:marketing|0|0
+community|arabic_mmlu_mt:medical_genetics|0|0
+community|arabic_mmlu_mt:miscellaneous|0|0
+community|arabic_mmlu_mt:moral_disputes|0|0
+community|arabic_mmlu_mt:moral_scenarios|0|0
+community|arabic_mmlu_mt:nutrition|0|0
+community|arabic_mmlu_mt:philosophy|0|0
+community|arabic_mmlu_mt:prehistory|0|0
+community|arabic_mmlu_mt:professional_accounting|0|0
+community|arabic_mmlu_mt:professional_law|0|0
+community|arabic_mmlu_mt:professional_medicine|0|0
+community|arabic_mmlu_mt:professional_psychology|0|0
+community|arabic_mmlu_mt:public_relations|0|0
+community|arabic_mmlu_mt:security_studies|0|0
+community|arabic_mmlu_mt:sociology|0|0
+community|arabic_mmlu_mt:us_foreign_policy|0|0
+community|arabic_mmlu_mt:virology|0|0
+community|arabic_mmlu_mt:world_religions|0|0
+community|arabic_exams|0|0
+community|acva:Algeria|0|0
+community|acva:Ancient_Egypt|0|0
+community|acva:Arab_Empire|0|0
+community|acva:Arabic_Architecture|0|0
+community|acva:Arabic_Art|0|0
+community|acva:Arabic_Astronomy|0|0
+community|acva:Arabic_Calligraphy|0|0
+community|acva:Arabic_Ceremony|0|0
+community|acva:Arabic_Clothing|0|0
+community|acva:Arabic_Culture|0|0
+community|acva:Arabic_Food|0|0
+community|acva:Arabic_Funeral|0|0
+community|acva:Arabic_Geography|0|0
+community|acva:Arabic_History|0|0
+community|acva:Arabic_Language_Origin|0|0
+community|acva:Arabic_Literature|0|0
+community|acva:Arabic_Math|0|0
+community|acva:Arabic_Medicine|0|0
+community|acva:Arabic_Music|0|0
+community|acva:Arabic_Ornament|0|0
+community|acva:Arabic_Philosophy|0|0
+community|acva:Arabic_Physics_and_Chemistry|0|0
+community|acva:Arabic_Wedding|0|0
+community|acva:Bahrain|0|0
+community|acva:Comoros|0|0
+community|acva:Egypt_modern|0|0
+community|acva:InfluenceFromAncientEgypt|0|0
+community|acva:InfluenceFromByzantium|0|0
+community|acva:InfluenceFromChina|0|0
+community|acva:InfluenceFromGreece|0|0
+community|acva:InfluenceFromIslam|0|0
+community|acva:InfluenceFromPersia|0|0
+community|acva:InfluenceFromRome|0|0
+community|acva:Iraq|0|0
+community|acva:Islam_Education|0|0
+community|acva:Islam_branches_and_schools|0|0
+community|acva:Islamic_law_system|0|0
+community|acva:Jordan|0|0
+community|acva:Kuwait|0|0
+community|acva:Lebanon|0|0
+community|acva:Libya|0|0
+community|acva:Mauritania|0|0
+community|acva:Mesopotamia_civilization|0|0
+community|acva:Morocco|0|0
+community|acva:Oman|0|0
+community|acva:Palestine|0|0
+community|acva:Qatar|0|0
+community|acva:Saudi_Arabia|0|0
+community|acva:Somalia|0|0
+community|acva:Sudan|0|0
+community|acva:Syria|0|0
+community|acva:Tunisia|0|0
+community|acva:United_Arab_Emirates|0|0
+community|acva:Yemen|0|0
+community|acva:communication|0|0
+community|acva:computer_and_phone|0|0
+community|acva:daily_life|0|0
+community|acva:entertainment|0|0
+community|alghafa:mcq_exams_test_ar|0|0
+community|alghafa:meta_ar_dialects|0|0
+community|alghafa:meta_ar_msa|0|0
+community|alghafa:multiple_choice_facts_truefalse_balanced_task|0|0
+community|alghafa:multiple_choice_grounded_statement_soqal_task|0|0
+community|alghafa:multiple_choice_grounded_statement_xglue_mlqa_task|0|0
+community|alghafa:multiple_choice_rating_sentiment_no_neutral_task|0|0
+community|alghafa:multiple_choice_rating_sentiment_task|0|0
+community|alghafa:multiple_choice_sentiment_task|0|0
+community|race_ar|0|0
+community|piqa_ar|0|0
+community|arc_easy_ar|0|0
+community|arc_challenge_okapi_ar|0|0
+community|openbook_qa_ext_ar|0|0
+community|boolq_ar|0|0
+community|copa_ext_ar|0|0
+community|hellaswag_okapi_ar|0|0
+community|toxigen_ar|0|0
+community|sciq_ar|0|0
diff --git a/examples/tasks/OALL_v2_tasks.txt b/examples/tasks/OALL_v2_tasks.txt
new file mode 100644
index 000000000..fc1b4f7e9
--- /dev/null
+++ b/examples/tasks/OALL_v2_tasks.txt
@@ -0,0 +1,117 @@
+community|alghafa:meta_ar_dialects|0|0
+community|alghafa:meta_ar_msa|0|0
+community|alghafa:mcq_exams_test_ar|0|0
+community|alghafa:multiple_choice_facts_truefalse_balanced_task|0|0
+community|alghafa:multiple_choice_grounded_statement_soqal_task|0|0
+community|alghafa:multiple_choice_grounded_statement_xglue_mlqa_task|0|0
+community|alghafa:multiple_choice_rating_sentiment_no_neutral_task|0|0
+community|alghafa:multiple_choice_rating_sentiment_task|0|0
+community|alghafa:multiple_choice_sentiment_task|0|0
+community|arabic_exams|0|0
+community|arabic_mmlu:Islamic Studies|0|0
+community|arabic_mmlu:Islamic Studies (Middle School)|0|0
+community|arabic_mmlu:Islamic Studies (Primary School)|0|0
+community|arabic_mmlu:Islamic Studies (High School)|0|0
+community|arabic_mmlu:Driving Test|0|0
+community|arabic_mmlu:Natural Science (Middle School)|0|0
+community|arabic_mmlu:Natural Science (Primary School)|0|0
+community|arabic_mmlu:History (Middle School)|0|0
+community|arabic_mmlu:History (Primary School)|0|0
+community|arabic_mmlu:History (High School)|0|0
+community|arabic_mmlu:General Knowledge|0|0
+community|arabic_mmlu:General Knowledge (Middle School)|0|0
+community|arabic_mmlu:General Knowledge (Primary School)|0|0
+community|arabic_mmlu:Law (Professional)|0|0
+community|arabic_mmlu:Physics (High School)|0|0
+community|arabic_mmlu:Social Science (Middle School)|0|0
+community|arabic_mmlu:Social Science (Primary School)|0|0
+community|arabic_mmlu:Management (University)|0|0
+community|arabic_mmlu:Arabic Language (Middle School)|0|0
+community|arabic_mmlu:Arabic Language (Primary School)|0|0
+community|arabic_mmlu:Arabic Language (High School)|0|0
+community|arabic_mmlu:Political Science (University)|0|0
+community|arabic_mmlu:Philosophy (High School)|0|0
+community|arabic_mmlu:Accounting (University)|0|0
+community|arabic_mmlu:Computer Science (Middle School)|0|0
+community|arabic_mmlu:Computer Science (Primary School)|0|0
+community|arabic_mmlu:Computer Science (High School)|0|0
+community|arabic_mmlu:Computer Science (University)|0|0
+community|arabic_mmlu:Geography (Middle School)|0|0
+community|arabic_mmlu:Geography (Primary School)|0|0
+community|arabic_mmlu:Geography (High School)|0|0
+community|arabic_mmlu:Math (Primary School)|0|0
+community|arabic_mmlu:Biology (High School)|0|0
+community|arabic_mmlu:Economics (Middle School)|0|0
+community|arabic_mmlu:Economics (High School)|0|0
+community|arabic_mmlu:Economics (University)|0|0
+community|arabic_mmlu:Arabic Language (General)|0|0
+community|arabic_mmlu:Arabic Language (Grammar)|0|0
+community|arabic_mmlu:Civics (Middle School)|0|0
+community|arabic_mmlu:Civics (High School)|0|0
+community|madinah_qa:Arabic Language (General)|0|0
+community|madinah_qa:Arabic Language (Grammar)|0|0
+community|aratrust:Trustfulness|0|0
+community|aratrust:MentalHealth|0|0
+community|aratrust:PhysicalHealth|0|0
+community|aratrust:Offensive|0|0
+community|aratrust:Ethics|0|0
+community|aratrust:Privacy|0|0
+community|aratrust:Unfairness|0|0
+community|aratrust:Illegal|0|0
+community|arabic_mmlu_ht:abstract_algebra|0|0
+community|arabic_mmlu_ht:anatomy|0|0
+community|arabic_mmlu_ht:astronomy|0|0
+community|arabic_mmlu_ht:business_ethics|0|0
+community|arabic_mmlu_ht:clinical_knowledge|0|0
+community|arabic_mmlu_ht:college_biology|0|0
+community|arabic_mmlu_ht:college_chemistry|0|0
+community|arabic_mmlu_ht:college_computer_science|0|0
+community|arabic_mmlu_ht:college_mathematics|0|0
+community|arabic_mmlu_ht:college_medicine|0|0
+community|arabic_mmlu_ht:college_physics|0|0
+community|arabic_mmlu_ht:computer_security|0|0
+community|arabic_mmlu_ht:conceptual_physics|0|0
+community|arabic_mmlu_ht:econometrics|0|0
+community|arabic_mmlu_ht:electrical_engineering|0|0
+community|arabic_mmlu_ht:elementary_mathematics|0|0
+community|arabic_mmlu_ht:formal_logic|0|0
+community|arabic_mmlu_ht:global_facts|0|0
+community|arabic_mmlu_ht:high_school_biology|0|0
+community|arabic_mmlu_ht:high_school_chemistry|0|0
+community|arabic_mmlu_ht:high_school_computer_science|0|0
+community|arabic_mmlu_ht:high_school_european_history|0|0
+community|arabic_mmlu_ht:high_school_geography|0|0
+community|arabic_mmlu_ht:high_school_government_and_politics|0|0
+community|arabic_mmlu_ht:high_school_macroeconomics|0|0
+community|arabic_mmlu_ht:high_school_mathematics|0|0
+community|arabic_mmlu_ht:high_school_microeconomics|0|0
+community|arabic_mmlu_ht:high_school_physics|0|0
+community|arabic_mmlu_ht:high_school_psychology|0|0
+community|arabic_mmlu_ht:high_school_statistics|0|0
+community|arabic_mmlu_ht:high_school_us_history|0|0
+community|arabic_mmlu_ht:high_school_world_history|0|0
+community|arabic_mmlu_ht:human_aging|0|0
+community|arabic_mmlu_ht:human_sexuality|0|0
+community|arabic_mmlu_ht:international_law|0|0
+community|arabic_mmlu_ht:jurisprudence|0|0
+community|arabic_mmlu_ht:logical_fallacies|0|0
+community|arabic_mmlu_ht:machine_learning|0|0
+community|arabic_mmlu_ht:management|0|0
+community|arabic_mmlu_ht:marketing|0|0
+community|arabic_mmlu_ht:medical_genetics|0|0
+community|arabic_mmlu_ht:miscellaneous|0|0
+community|arabic_mmlu_ht:moral_disputes|0|0
+community|arabic_mmlu_ht:moral_scenarios|0|0
+community|arabic_mmlu_ht:nutrition|0|0
+community|arabic_mmlu_ht:philosophy|0|0
+community|arabic_mmlu_ht:prehistory|0|0
+community|arabic_mmlu_ht:professional_accounting|0|0
+community|arabic_mmlu_ht:professional_law|0|0
+community|arabic_mmlu_ht:professional_medicine|0|0
+community|arabic_mmlu_ht:professional_psychology|0|0
+community|arabic_mmlu_ht:public_relations|0|0
+community|arabic_mmlu_ht:security_studies|0|0
+community|arabic_mmlu_ht:sociology|0|0
+community|arabic_mmlu_ht:us_foreign_policy|0|0
+community|arabic_mmlu_ht:virology|0|0
+community|arabic_mmlu_ht:world_religions|0|0
diff --git a/examples/tasks/all_arabic_tasks.txt b/examples/tasks/all_arabic_tasks.txt
index fa430ed14..8593fa2f8 100644
--- a/examples/tasks/all_arabic_tasks.txt
+++ b/examples/tasks/all_arabic_tasks.txt
@@ -1,137 +1,244 @@
 lighteval|xstory_cloze:ar|0|0
-community|arabic_mmlu:abstract_algebra|5|1
-community|arabic_mmlu:anatomy|5|1
-community|arabic_mmlu:astronomy|5|1
-community|arabic_mmlu:business_ethics|5|1
-community|arabic_mmlu:clinical_knowledge|5|1
-community|arabic_mmlu:college_biology|5|1
-community|arabic_mmlu:college_chemistry|5|1
-community|arabic_mmlu:college_computer_science|5|1
-community|arabic_mmlu:college_mathematics|5|1
-community|arabic_mmlu:college_medicine|5|1
-community|arabic_mmlu:college_physics|5|1
-community|arabic_mmlu:computer_security|5|1
-community|arabic_mmlu:conceptual_physics|5|1
-community|arabic_mmlu:econometrics|5|1
-community|arabic_mmlu:electrical_engineering|5|1
-community|arabic_mmlu:elementary_mathematics|5|1
-community|arabic_mmlu:formal_logic|5|1
-community|arabic_mmlu:global_facts|5|1
-community|arabic_mmlu:high_school_biology|5|1
-community|arabic_mmlu:high_school_chemistry|5|1
-community|arabic_mmlu:high_school_computer_science|5|1
-community|arabic_mmlu:high_school_european_history|5|1
-community|arabic_mmlu:high_school_geography|5|1
-community|arabic_mmlu:high_school_government_and_politics|5|1
-community|arabic_mmlu:high_school_macroeconomics|5|1
-community|arabic_mmlu:high_school_mathematics|5|1
-community|arabic_mmlu:high_school_microeconomics|5|1
-community|arabic_mmlu:high_school_physics|5|1
-community|arabic_mmlu:high_school_psychology|5|1
-community|arabic_mmlu:high_school_statistics|5|1
-community|arabic_mmlu:high_school_us_history|5|1
-community|arabic_mmlu:high_school_world_history|5|1
-community|arabic_mmlu:human_aging|5|1
-community|arabic_mmlu:human_sexuality|5|1
-community|arabic_mmlu:international_law|5|1
-community|arabic_mmlu:jurisprudence|5|1
-community|arabic_mmlu:logical_fallacies|5|1
-community|arabic_mmlu:machine_learning|5|1
-community|arabic_mmlu:management|5|1
-community|arabic_mmlu:marketing|5|1
-community|arabic_mmlu:medical_genetics|5|1
-community|arabic_mmlu:miscellaneous|5|1
-community|arabic_mmlu:moral_disputes|5|1
-community|arabic_mmlu:moral_scenarios|5|1
-community|arabic_mmlu:nutrition|5|1
-community|arabic_mmlu:philosophy|5|1
-community|arabic_mmlu:prehistory|5|1
-community|arabic_mmlu:professional_accounting|5|1
-community|arabic_mmlu:professional_law|5|1
-community|arabic_mmlu:professional_medicine|5|1
-community|arabic_mmlu:professional_psychology|5|1
-community|arabic_mmlu:public_relations|5|1
-community|arabic_mmlu:security_studies|5|1
-community|arabic_mmlu:sociology|5|1
-community|arabic_mmlu:us_foreign_policy|5|1
-community|arabic_mmlu:virology|5|1
-community|arabic_mmlu:world_religions|5|1
-community|arabic_exams|5|1
-community|acva:Algeria|5|1
-community|acva:Ancient_Egypt|5|1
-community|acva:Arab_Empire|5|1
-community|acva:Arabic_Architecture|5|1
-community|acva:Arabic_Art|5|1
-community|acva:Arabic_Astronomy|5|1
-community|acva:Arabic_Calligraphy|5|1
-community|acva:Arabic_Ceremony|5|1
-community|acva:Arabic_Clothing|5|1
-community|acva:Arabic_Culture|5|1
-community|acva:Arabic_Food|5|1
-community|acva:Arabic_Funeral|5|1
-community|acva:Arabic_Geography|5|1
-community|acva:Arabic_History|5|1
-community|acva:Arabic_Language_Origin|5|1
-community|acva:Arabic_Literature|5|1
-community|acva:Arabic_Math|5|1
-community|acva:Arabic_Medicine|5|1
-community|acva:Arabic_Music|5|1
-community|acva:Arabic_Ornament|5|1
-community|acva:Arabic_Philosophy|5|1
-community|acva:Arabic_Physics_and_Chemistry|5|1
-community|acva:Arabic_Wedding|5|1
-community|acva:Bahrain|5|1
-community|acva:Comoros|5|1
-community|acva:Egypt_modern|5|1
-community|acva:InfluenceFromAncientEgypt|5|1
-community|acva:InfluenceFromByzantium|5|1
-community|acva:InfluenceFromChina|5|1
-community|acva:InfluenceFromGreece|5|1
-community|acva:InfluenceFromIslam|5|1
-community|acva:InfluenceFromPersia|5|1
-community|acva:InfluenceFromRome|5|1
-community|acva:Iraq|5|1
-community|acva:Islam_Education|5|1
-community|acva:Islam_branches_and_schools|5|1
-community|acva:Islamic_law_system|5|1
-community|acva:Jordan|5|1
-community|acva:Kuwait|5|1
-community|acva:Lebanon|5|1
-community|acva:Libya|5|1
-community|acva:Mauritania|5|1
-community|acva:Mesopotamia_civilization|5|1
-community|acva:Morocco|5|1
-community|acva:Oman|5|1
-community|acva:Palestine|5|1
-community|acva:Qatar|5|1
-community|acva:Saudi_Arabia|5|1
-community|acva:Somalia|5|1
-community|acva:Sudan|5|1
-community|acva:Syria|5|1
-community|acva:Tunisia|5|1
-community|acva:United_Arab_Emirates|5|1
-community|acva:Yemen|5|1
-community|acva:communication|5|1
-community|acva:computer_and_phone|5|1
-community|acva:daily_life|5|1
-community|acva:entertainment|5|1
-community|alghafa:mcq_exams_test_ar|5|1
-community|alghafa:meta_ar_dialects|5|1
-community|alghafa:meta_ar_msa|5|1
-community|alghafa:multiple_choice_facts_truefalse_balanced_task|5|1
-community|alghafa:multiple_choice_grounded_statement_soqal_task|5|1
-community|alghafa:multiple_choice_grounded_statement_xglue_mlqa_task|5|1
-community|alghafa:multiple_choice_rating_sentiment_no_neutral_task|5|1
-community|alghafa:multiple_choice_rating_sentiment_task|5|1
-community|alghafa:multiple_choice_sentiment_task|5|1
-community|race_ar|5|1
-community|piqa_ar|5|1
-community|arc_easy_ar|5|1
-community|arc_challenge_okapi_ar|5|1
-community|mmlu_okapi_ar|5|1
-community|openbook_qa_ext_ar|5|1
-community|boolq_ar|5|1
-community|copa_ext_ar|5|1
-community|hellaswag_okapi_ar|5|1
-community|toxigen_ar|5|1
-community|sciq_ar|5|1
+community|arabic_exams|0|0
+community|arabic_mmlu_mt:abstract_algebra|0|0
+community|arabic_mmlu_mt:anatomy|0|0
+community|arabic_mmlu_mt:astronomy|0|0
+community|arabic_mmlu_mt:business_ethics|0|0
+community|arabic_mmlu_mt:clinical_knowledge|0|0
+community|arabic_mmlu_mt:college_biology|0|0
+community|arabic_mmlu_mt:college_chemistry|0|0
+community|arabic_mmlu_mt:college_computer_science|0|0
+community|arabic_mmlu_mt:college_mathematics|0|0
+community|arabic_mmlu_mt:college_medicine|0|0
+community|arabic_mmlu_mt:college_physics|0|0
+community|arabic_mmlu_mt:computer_security|0|0
+community|arabic_mmlu_mt:conceptual_physics|0|0
+community|arabic_mmlu_mt:econometrics|0|0
+community|arabic_mmlu_mt:electrical_engineering|0|0
+community|arabic_mmlu_mt:elementary_mathematics|0|0
+community|arabic_mmlu_mt:formal_logic|0|0
+community|arabic_mmlu_mt:global_facts|0|0
+community|arabic_mmlu_mt:high_school_biology|0|0
+community|arabic_mmlu_mt:high_school_chemistry|0|0
+community|arabic_mmlu_mt:high_school_computer_science|0|0
+community|arabic_mmlu_mt:high_school_european_history|0|0
+community|arabic_mmlu_mt:high_school_geography|0|0
+community|arabic_mmlu_mt:high_school_government_and_politics|0|0
+community|arabic_mmlu_mt:high_school_macroeconomics|0|0
+community|arabic_mmlu_mt:high_school_mathematics|0|0
+community|arabic_mmlu_mt:high_school_microeconomics|0|0
+community|arabic_mmlu_mt:high_school_physics|0|0
+community|arabic_mmlu_mt:high_school_psychology|0|0
+community|arabic_mmlu_mt:high_school_statistics|0|0
+community|arabic_mmlu_mt:high_school_us_history|0|0
+community|arabic_mmlu_mt:high_school_world_history|0|0
+community|arabic_mmlu_mt:human_aging|0|0
+community|arabic_mmlu_mt:human_sexuality|0|0
+community|arabic_mmlu_mt:international_law|0|0
+community|arabic_mmlu_mt:jurisprudence|0|0
+community|arabic_mmlu_mt:logical_fallacies|0|0
+community|arabic_mmlu_mt:machine_learning|0|0
+community|arabic_mmlu_mt:management|0|0
+community|arabic_mmlu_mt:marketing|0|0
+community|arabic_mmlu_mt:medical_genetics|0|0
+community|arabic_mmlu_mt:miscellaneous|0|0
+community|arabic_mmlu_mt:moral_disputes|0|0
+community|arabic_mmlu_mt:moral_scenarios|0|0
+community|arabic_mmlu_mt:nutrition|0|0
+community|arabic_mmlu_mt:philosophy|0|0
+community|arabic_mmlu_mt:prehistory|0|0
+community|arabic_mmlu_mt:professional_accounting|0|0
+community|arabic_mmlu_mt:professional_law|0|0
+community|arabic_mmlu_mt:professional_medicine|0|0
+community|arabic_mmlu_mt:professional_psychology|0|0
+community|arabic_mmlu_mt:public_relations|0|0
+community|arabic_mmlu_mt:security_studies|0|0
+community|arabic_mmlu_mt:sociology|0|0
+community|arabic_mmlu_mt:us_foreign_policy|0|0
+community|arabic_mmlu_mt:virology|0|0
+community|arabic_mmlu_mt:world_religions|0|0
+community|acva:Algeria|0|0
+community|acva:Ancient_Egypt|0|0
+community|acva:Arab_Empire|0|0
+community|acva:Arabic_Architecture|0|0
+community|acva:Arabic_Art|0|0
+community|acva:Arabic_Astronomy|0|0
+community|acva:Arabic_Calligraphy|0|0
+community|acva:Arabic_Ceremony|0|0
+community|acva:Arabic_Clothing|0|0
+community|acva:Arabic_Culture|0|0
+community|acva:Arabic_Food|0|0
+community|acva:Arabic_Funeral|0|0
+community|acva:Arabic_Geography|0|0
+community|acva:Arabic_History|0|0
+community|acva:Arabic_Language_Origin|0|0
+community|acva:Arabic_Literature|0|0
+community|acva:Arabic_Math|0|0
+community|acva:Arabic_Medicine|0|0
+community|acva:Arabic_Music|0|0
+community|acva:Arabic_Ornament|0|0
+community|acva:Arabic_Philosophy|0|0
+community|acva:Arabic_Physics_and_Chemistry|0|0
+community|acva:Arabic_Wedding|0|0
+community|acva:Bahrain|0|0
+community|acva:Comoros|0|0
+community|acva:Egypt_modern|0|0
+community|acva:InfluenceFromAncientEgypt|0|0
+community|acva:InfluenceFromByzantium|0|0
+community|acva:InfluenceFromChina|0|0
+community|acva:InfluenceFromGreece|0|0
+community|acva:InfluenceFromIslam|0|0
+community|acva:InfluenceFromPersia|0|0
+community|acva:InfluenceFromRome|0|0
+community|acva:Iraq|0|0
+community|acva:Islam_Education|0|0
+community|acva:Islam_branches_and_schools|0|0
+community|acva:Islamic_law_system|0|0
+community|acva:Jordan|0|0
+community|acva:Kuwait|0|0
+community|acva:Lebanon|0|0
+community|acva:Libya|0|0
+community|acva:Mauritania|0|0
+community|acva:Mesopotamia_civilization|0|0
+community|acva:Morocco|0|0
+community|acva:Oman|0|0
+community|acva:Palestine|0|0
+community|acva:Qatar|0|0
+community|acva:Saudi_Arabia|0|0
+community|acva:Somalia|0|0
+community|acva:Sudan|0|0
+community|acva:Syria|0|0
+community|acva:Tunisia|0|0
+community|acva:United_Arab_Emirates|0|0
+community|acva:Yemen|0|0
+community|acva:communication|0|0
+community|acva:computer_and_phone|0|0
+community|acva:daily_life|0|0
+community|acva:entertainment|0|0
+community|alghafa:mcq_exams_test_ar|0|0
+community|alghafa:meta_ar_dialects|0|0
+community|alghafa:meta_ar_msa|0|0
+community|alghafa:multiple_choice_facts_truefalse_balanced_task|0|0
+community|alghafa:multiple_choice_grounded_statement_soqal_task|0|0
+community|alghafa:multiple_choice_grounded_statement_xglue_mlqa_task|0|0
+community|alghafa:multiple_choice_rating_sentiment_no_neutral_task|0|0
+community|alghafa:multiple_choice_rating_sentiment_task|0|0
+community|alghafa:multiple_choice_sentiment_task|0|0
+community|race_ar|0|0
+community|piqa_ar|0|0
+community|arc_easy_ar|0|0
+community|arc_challenge_okapi_ar|0|0
+community|mmlu_okapi_ar|0|0
+community|openbook_qa_ext_ar|0|0
+community|boolq_ar|0|0
+community|copa_ext_ar|0|0
+community|hellaswag_okapi_ar|0|0
+community|toxigen_ar|0|0
+community|sciq_ar|0|0
+community|arabic_mmlu_ht:abstract_algebra|0|0
+community|arabic_mmlu_ht:anatomy|0|0
+community|arabic_mmlu_ht:astronomy|0|0
+community|arabic_mmlu_ht:business_ethics|0|0
+community|arabic_mmlu_ht:clinical_knowledge|0|0
+community|arabic_mmlu_ht:college_biology|0|0
+community|arabic_mmlu_ht:college_chemistry|0|0
+community|arabic_mmlu_ht:college_computer_science|0|0
+community|arabic_mmlu_ht:college_mathematics|0|0
+community|arabic_mmlu_ht:college_medicine|0|0
+community|arabic_mmlu_ht:college_physics|0|0
+community|arabic_mmlu_ht:computer_security|0|0
+community|arabic_mmlu_ht:conceptual_physics|0|0
+community|arabic_mmlu_ht:econometrics|0|0
+community|arabic_mmlu_ht:electrical_engineering|0|0
+community|arabic_mmlu_ht:elementary_mathematics|0|0
+community|arabic_mmlu_ht:formal_logic|0|0
+community|arabic_mmlu_ht:global_facts|0|0
+community|arabic_mmlu_ht:high_school_biology|0|0
+community|arabic_mmlu_ht:high_school_chemistry|0|0
+community|arabic_mmlu_ht:high_school_computer_science|0|0
+community|arabic_mmlu_ht:high_school_european_history|0|0
+community|arabic_mmlu_ht:high_school_geography|0|0
+community|arabic_mmlu_ht:high_school_government_and_politics|0|0
+community|arabic_mmlu_ht:high_school_macroeconomics|0|0
+community|arabic_mmlu_ht:high_school_mathematics|0|0
+community|arabic_mmlu_ht:high_school_microeconomics|0|0
+community|arabic_mmlu_ht:high_school_physics|0|0
+community|arabic_mmlu_ht:high_school_psychology|0|0
+community|arabic_mmlu_ht:high_school_statistics|0|0
+community|arabic_mmlu_ht:high_school_us_history|0|0
+community|arabic_mmlu_ht:high_school_world_history|0|0
+community|arabic_mmlu_ht:human_aging|0|0
+community|arabic_mmlu_ht:human_sexuality|0|0
+community|arabic_mmlu_ht:international_law|0|0
+community|arabic_mmlu_ht:jurisprudence|0|0
+community|arabic_mmlu_ht:logical_fallacies|0|0
+community|arabic_mmlu_ht:machine_learning|0|0
+community|arabic_mmlu_ht:management|0|0
+community|arabic_mmlu_ht:marketing|0|0
+community|arabic_mmlu_ht:medical_genetics|0|0
+community|arabic_mmlu_ht:miscellaneous|0|0
+community|arabic_mmlu_ht:moral_disputes|0|0
+community|arabic_mmlu_ht:moral_scenarios|0|0
+community|arabic_mmlu_ht:nutrition|0|0
+community|arabic_mmlu_ht:philosophy|0|0
+community|arabic_mmlu_ht:prehistory|0|0
+community|arabic_mmlu_ht:professional_accounting|0|0
+community|arabic_mmlu_ht:professional_law|0|0
+community|arabic_mmlu_ht:professional_medicine|0|0
+community|arabic_mmlu_ht:professional_psychology|0|0
+community|arabic_mmlu_ht:public_relations|0|0
+community|arabic_mmlu_ht:security_studies|0|0
+community|arabic_mmlu_ht:sociology|0|0
+community|arabic_mmlu_ht:us_foreign_policy|0|0
+community|arabic_mmlu_ht:virology|0|0
+community|arabic_mmlu_ht:world_religions|0|0
+community|arabic_mmlu:Islamic Studies|0|0
+community|arabic_mmlu:Islamic Studies (Middle School)|0|0
+community|arabic_mmlu:Islamic Studies (Primary School)|0|0
+community|arabic_mmlu:Islamic Studies (High School)|0|0
+community|arabic_mmlu:Driving Test|0|0
+community|arabic_mmlu:Natural Science (Middle School)|0|0
+community|arabic_mmlu:Natural Science (Primary School)|0|0
+community|arabic_mmlu:History (Middle School)|0|0
+community|arabic_mmlu:History (Primary School)|0|0
+community|arabic_mmlu:History (High School)|0|0
+community|arabic_mmlu:General Knowledge|0|0
+community|arabic_mmlu:General Knowledge (Middle School)|0|0
+community|arabic_mmlu:General Knowledge (Primary School)|0|0
+community|arabic_mmlu:Law (Professional)|0|0
+community|arabic_mmlu:Physics (High School)|0|0
+community|arabic_mmlu:Social Science (Middle School)|0|0
+community|arabic_mmlu:Social Science (Primary School)|0|0
+community|arabic_mmlu:Management (University)|0|0
+community|arabic_mmlu:Arabic Language (Middle School)|0|0
+community|arabic_mmlu:Arabic Language (Primary School)|0|0
+community|arabic_mmlu:Arabic Language (High School)|0|0
+community|arabic_mmlu:Political Science (University)|0|0
+community|arabic_mmlu:Philosophy (High School)|0|0
+community|arabic_mmlu:Accounting (University)|0|0
+community|arabic_mmlu:Computer Science (Middle School)|0|0
+community|arabic_mmlu:Computer Science (Primary School)|0|0
+community|arabic_mmlu:Computer Science (High School)|0|0
+community|arabic_mmlu:Computer Science (University)|0|0
+community|arabic_mmlu:Geography (Middle School)|0|0
+community|arabic_mmlu:Geography (Primary School)|0|0
+community|arabic_mmlu:Geography (High School)|0|0
+community|arabic_mmlu:Math (Primary School)|0|0
+community|arabic_mmlu:Biology (High School)|0|0
+community|arabic_mmlu:Economics (Middle School)|0|0
+community|arabic_mmlu:Economics (High School)|0|0
+community|arabic_mmlu:Economics (University)|0|0
+community|arabic_mmlu:Arabic Language (General)|0|0
+community|arabic_mmlu:Arabic Language (Grammar)|0|0
+community|arabic_mmlu:Civics (Middle School)|0|0
+community|arabic_mmlu:Civics (High School)|0|0
+community|madinah_qa:Arabic Language (General)|0|0
+community|madinah_qa:Arabic Language (Grammar)|0|0
+community|aratrust:Trustfulness|0|0
+community|aratrust:MentalHealth|0|0
+community|aratrust:PhysicalHealth|0|0
+community|aratrust:Offensive|0|0
+community|aratrust:Ethics|0|0
+community|aratrust:Privacy|0|0
+community|aratrust:Unfairness|0|0
+community|aratrust:Illegal|0|0
diff --git a/src/lighteval/tasks/multilingual/tasks.py b/src/lighteval/tasks/multilingual/tasks.py
index 93d8cea40..3d92a71e2 100644
--- a/src/lighteval/tasks/multilingual/tasks.py
+++ b/src/lighteval/tasks/multilingual/tasks.py
@@ -2117,6 +2117,7 @@
     ]
 ]
 
+
 TURKISH_MMLU_SUBSET = [
     "Biology",
     "Chemistry",

From f907a3430ac09647fb2bd08a16ef990762eb66c3 Mon Sep 17 00:00:00 2001
From: Albert Villanova del Moral
 <8515462+albertvillanova@users.noreply.github.com>
Date: Thu, 12 Dec 2024 09:37:21 +0100
Subject: [PATCH 08/12] Test inference endpoint model config parsing from path
 (#434)

* Add example model config for existing endpoint

* Test InferenceEndpointModelConfig.from_path

* Comment default main branch in example

* Fix typo

* Delete unused add_special_tokens param in endpoint example config

* Fix typo

* Implement InferenceEndpointModelConfig.from_path

* Use InferenceEndpointModelConfig.from_path

* Refactor InferenceEndpointModelConfig.from_path

* Align docs
---
 ...ate-the-model-on-a-server-or-container.mdx |  4 +-
 examples/model_configs/endpoint_model.yaml    |  6 +-
 .../endpoint_model_reuse_existing.yaml        |  5 ++
 src/lighteval/main_endpoint.py                | 25 +-----
 .../models/endpoints/endpoint_model.py        | 11 ++-
 tests/models/test_endpoint_model.py           | 85 +++++++++++++++++++
 6 files changed, 105 insertions(+), 31 deletions(-)
 create mode 100644 examples/model_configs/endpoint_model_reuse_existing.yaml
 create mode 100644 tests/models/test_endpoint_model.py

diff --git a/docs/source/evaluate-the-model-on-a-server-or-container.mdx b/docs/source/evaluate-the-model-on-a-server-or-container.mdx
index fff5f777c..23c658b4e 100644
--- a/docs/source/evaluate-the-model-on-a-server-or-container.mdx
+++ b/docs/source/evaluate-the-model-on-a-server-or-container.mdx
@@ -31,7 +31,7 @@ model:
     # endpoint_name: "llama-2-7B-lighteval" # needs to be lower case without special characters
     # reuse_existing: true # defaults to false; if true, ignore all params in instance, and don't delete the endpoint after evaluation
     model_name: "meta-llama/Llama-2-7b-hf"
-    revision: "main"
+    # revision: "main" # defaults to "main"
     dtype: "float16" # can be any of "awq", "eetq", "gptq", "4bit' or "8bit" (will use bitsandbytes), "bfloat16" or "float16"
   instance:
     accelerator: "gpu"
@@ -45,8 +45,6 @@ model:
     image_url: null # Optionally specify the docker image to use when launching the endpoint model. E.g., launching models with later releases of the TGI container with support for newer models.
     env_vars:
       null # Optional environment variables to include when launching the endpoint. e.g., `MAX_INPUT_LENGTH: 2048`
-  generation:
-    add_special_tokens: true
 ```
 
 ### Text Generation Inference (TGI)
diff --git a/examples/model_configs/endpoint_model.yaml b/examples/model_configs/endpoint_model.yaml
index 79b7eff0b..08cb5fac3 100644
--- a/examples/model_configs/endpoint_model.yaml
+++ b/examples/model_configs/endpoint_model.yaml
@@ -4,7 +4,7 @@ model:
     # endpoint_name: "llama-2-7B-lighteval" # needs to be lower case without special characters
     # reuse_existing: true # defaults to false; if true, ignore all params in instance, and don't delete the endpoint after evaluation
     model_name: "meta-llama/Llama-2-7b-hf"
-    revision: "main"
+    # revision: "main"  # defaults to "main"
     dtype: "float16" # can be any of "awq", "eetq", "gptq", "4bit' or "8bit" (will use bitsandbytes), "bfloat16" or "float16"
   instance:
     accelerator: "gpu"
@@ -14,9 +14,7 @@ model:
     instance_size: "x1"
     framework: "pytorch"
     endpoint_type: "protected"
-    namespace: null # The namespace under which to launch the endopint. Defaults to the current user's namespace
+    namespace: null # The namespace under which to launch the endpoint. Defaults to the current user's namespace
     image_url: null # Optionally specify the docker image to use when launching the endpoint model. E.g., launching models with later releases of the TGI container with support for newer models.
     env_vars:
       null # Optional environment variables to include when launching the endpoint. e.g., `MAX_INPUT_LENGTH: 2048`
-  generation:
-    add_special_tokens: true
diff --git a/examples/model_configs/endpoint_model_reuse_existing.yaml b/examples/model_configs/endpoint_model_reuse_existing.yaml
new file mode 100644
index 000000000..8b47354d2
--- /dev/null
+++ b/examples/model_configs/endpoint_model_reuse_existing.yaml
@@ -0,0 +1,5 @@
+model:
+  base_params:
+    # Pass either model_name, or endpoint_name and true reuse_existing
+     endpoint_name: "llama-2-7B-lighteval" # needs to be lower case without special characters
+     reuse_existing: true # defaults to false; if true, ignore all params in instance, and don't delete the endpoint after evaluation
diff --git a/src/lighteval/main_endpoint.py b/src/lighteval/main_endpoint.py
index 4b31f0f2d..952aae074 100644
--- a/src/lighteval/main_endpoint.py
+++ b/src/lighteval/main_endpoint.py
@@ -198,7 +198,6 @@ def inference_endpoint(
     """
     Evaluate models using inference-endpoints as backend.
     """
-    import yaml
 
     from lighteval.logging.evaluation_tracker import EvaluationTracker
     from lighteval.models.endpoints.endpoint_model import (
@@ -220,31 +219,11 @@ def inference_endpoint(
 
     parallelism_manager = ParallelismManager.NONE  # since we're using inference endpoints in remote
 
-    with open(model_config_path, "r") as f:
-        config = yaml.safe_load(f)["model"]
-
     # Find a way to add this back
     # if config["base_params"].get("endpoint_name", None):
     #    return InferenceModelConfig(model=config["base_params"]["endpoint_name"])
-    all_params = {
-        "model_name": config["base_params"].get("model_name", None),
-        "endpoint_name": config["base_params"].get("endpoint_name", None),
-        "model_dtype": config["base_params"].get("dtype", None),
-        "revision": config["base_params"].get("revision", None) or "main",
-        "reuse_existing": config["base_params"].get("reuse_existing"),
-        "accelerator": config.get("instance", {}).get("accelerator", None),
-        "region": config.get("instance", {}).get("region", None),
-        "vendor": config.get("instance", {}).get("vendor", None),
-        "instance_size": config.get("instance", {}).get("instance_size", None),
-        "instance_type": config.get("instance", {}).get("instance_type", None),
-        "namespace": config.get("instance", {}).get("namespace", None),
-        "image_url": config.get("instance", {}).get("image_url", None),
-        "env_vars": config.get("instance", {}).get("env_vars", None),
-    }
-    model_config = InferenceEndpointModelConfig(
-        # We only initialize params which have a non default value
-        **{k: v for k, v in all_params.items() if v is not None},
-    )
+
+    model_config = InferenceEndpointModelConfig.from_path(model_config_path)
 
     pipeline_params = PipelineParameters(
         launcher_type=parallelism_manager,
diff --git a/src/lighteval/models/endpoints/endpoint_model.py b/src/lighteval/models/endpoints/endpoint_model.py
index 909d4795d..0bd6cbbc3 100644
--- a/src/lighteval/models/endpoints/endpoint_model.py
+++ b/src/lighteval/models/endpoints/endpoint_model.py
@@ -103,12 +103,21 @@ def __post_init__(self):
         # xor operator, one is None but not the other
         if (self.instance_size is None) ^ (self.instance_type is None):
             raise ValueError(
-                "When creating an inference endpoint, you need to specify explicitely both instance_type and instance_size, or none of them for autoscaling."
+                "When creating an inference endpoint, you need to specify explicitly both instance_type and instance_size, or none of them for autoscaling."
             )
 
         if not (self.endpoint_name is None) ^ int(self.model_name is None):
             raise ValueError("You need to set either endpoint_name or model_name (but not both).")
 
+    @classmethod
+    def from_path(cls, path: str) -> "InferenceEndpointModelConfig":
+        import yaml
+
+        with open(path, "r") as f:
+            config = yaml.safe_load(f)["model"]
+        config["base_params"]["model_dtype"] = config["base_params"].pop("dtype", None)
+        return cls(**config["base_params"], **config.get("instance", {}))
+
     def get_dtype_args(self) -> Dict[str, str]:
         if self.model_dtype is None:
             return {}
diff --git a/tests/models/test_endpoint_model.py b/tests/models/test_endpoint_model.py
new file mode 100644
index 000000000..29fbb3c48
--- /dev/null
+++ b/tests/models/test_endpoint_model.py
@@ -0,0 +1,85 @@
+# MIT License
+
+# Copyright (c) 2024 The HuggingFace Team
+
+# Permission is hereby granted, free of charge, to any person obtaining a copy
+# of this software and associated documentation files (the "Software"), to deal
+# in the Software without restriction, including without limitation the rights
+# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+# copies of the Software, and to permit persons to whom the Software is
+# furnished to do so, subject to the following conditions:
+
+# The above copyright notice and this permission notice shall be included in all
+# copies or substantial portions of the Software.
+
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+# SOFTWARE.
+
+import pytest
+
+from lighteval.models.endpoints.endpoint_model import InferenceEndpointModelConfig
+
+
+# "examples/model_configs/endpoint_model.yaml"
+
+
+class TestInferenceEndpointModelConfig:
+    @pytest.mark.parametrize(
+        "config_path, expected_config",
+        [
+            (
+                "examples/model_configs/endpoint_model.yaml",
+                {
+                    "model_name": "meta-llama/Llama-2-7b-hf",
+                    "revision": "main",
+                    "model_dtype": "float16",
+                    "endpoint_name": None,
+                    "reuse_existing": False,
+                    "accelerator": "gpu",
+                    "region": "eu-west-1",
+                    "vendor": "aws",
+                    "instance_type": "nvidia-a10g",
+                    "instance_size": "x1",
+                    "framework": "pytorch",
+                    "endpoint_type": "protected",
+                    "namespace": None,
+                    "image_url": None,
+                    "env_vars": None,
+                },
+            ),
+            (
+                "examples/model_configs/endpoint_model_lite.yaml",
+                {
+                    "model_name": "meta-llama/Llama-3.1-8B-Instruct",
+                    # Defaults:
+                    "revision": "main",
+                    "model_dtype": None,
+                    "endpoint_name": None,
+                    "reuse_existing": False,
+                    "accelerator": "gpu",
+                    "region": "us-east-1",
+                    "vendor": "aws",
+                    "instance_type": None,
+                    "instance_size": None,
+                    "framework": "pytorch",
+                    "endpoint_type": "protected",
+                    "namespace": None,
+                    "image_url": None,
+                    "env_vars": None,
+                },
+            ),
+            (
+                "examples/model_configs/endpoint_model_reuse_existing.yaml",
+                {"endpoint_name": "llama-2-7B-lighteval", "reuse_existing": True},
+            ),
+        ],
+    )
+    def test_from_path(self, config_path, expected_config):
+        config = InferenceEndpointModelConfig.from_path(config_path)
+        for key, value in expected_config.items():
+            assert getattr(config, key) == value

From 54244b390dff1d12a5576a23e4ffb58d6c1fb182 Mon Sep 17 00:00:00 2001
From: Nick Doiron <ndoiron@mapmeld.com>
Date: Thu, 12 Dec 2024 05:45:35 -0500
Subject: [PATCH 09/12] Allow AdapterModels to have custom tokens (#306)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---------

Co-authored-by: Clémentine Fourrier <22726840+clefourrier@users.noreply.github.com>
---
 src/lighteval/main_accelerate.py                   |  4 ++--
 src/lighteval/models/transformers/adapter_model.py | 12 ++++++++++++
 2 files changed, 14 insertions(+), 2 deletions(-)

diff --git a/src/lighteval/main_accelerate.py b/src/lighteval/main_accelerate.py
index 27e4141f5..3454a223b 100644
--- a/src/lighteval/main_accelerate.py
+++ b/src/lighteval/main_accelerate.py
@@ -169,11 +169,11 @@ def accelerate(  # noqa C901
         # Keeping only non null params
         args_dict = {k: v for k, v in args_dict.items() if v is not None}
 
-        if config["merged_weights"]["delta_weights"]:
+        if config["merged_weights"].get("delta_weights", False):
             if config["merged_weights"]["base_model"] is None:
                 raise ValueError("You need to specify a base model when using delta weights")
             model_config = DeltaModelConfig(**args_dict)
-        elif config["merged_weights"]["adapter_weights"]:
+        elif config["merged_weights"].get("adapter_weights", False):
             if config["merged_weights"]["base_model"] is None:
                 raise ValueError("You need to specify a base model when using adapter weights")
             model_config = AdapterModelConfig(**args_dict)
diff --git a/src/lighteval/models/transformers/adapter_model.py b/src/lighteval/models/transformers/adapter_model.py
index 449c2c1a8..e66a1aa1d 100644
--- a/src/lighteval/models/transformers/adapter_model.py
+++ b/src/lighteval/models/transformers/adapter_model.py
@@ -84,6 +84,18 @@ def _create_auto_model(self, config: AdapterModelConfig, env_config: EnvConfig)
             base = AutoModelForCausalLM.from_pretrained(
                 config.base_model, torch_dtype=torch.float16, low_cpu_mem_usage=True, token=env_config.token
             )
+            # resize model for adapters with added tokens
+            token_diff = len(self._tokenizer) - base.config.vocab_size
+            if token_diff != 0:
+                if token_diff > 0:
+                    logger.info(
+                        f"You're using the adapter model's tokenizer, which has more tokens than the base model. Adding {token_diff} token(s)."
+                    )
+                else:
+                    logger.info(
+                        f"You're using the adapter model's tokenizer, which has fewer tokens than the base model. Removing {abs(token_diff)} token(s)."
+                    )
+                base.resize_token_embeddings(len(self._tokenizer))
             # Should pass revision
             model = PeftModel.from_pretrained(base, adapter_weights)
             model = model.merge_and_unload()

From ca2fdcbb39531cbc9a4a029268b79d1b84a4452f Mon Sep 17 00:00:00 2001
From: Sadra Barikbin <sadraqazvin1@yahoo.com>
Date: Thu, 12 Dec 2024 14:57:21 +0330
Subject: [PATCH 10/12] Fix a tiny bug in
 `PromptManager::FewShotSampler::_init_fewshot_sampling_random` (#423)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---------

Co-authored-by: Clémentine Fourrier <22726840+clefourrier@users.noreply.github.com>
---
 src/lighteval/tasks/prompt_manager.py |  7 +--
 tests/test_prompt_manager.py          | 62 +++++++++++++++++++++++++++
 2 files changed, 66 insertions(+), 3 deletions(-)
 create mode 100644 tests/test_prompt_manager.py

diff --git a/src/lighteval/tasks/prompt_manager.py b/src/lighteval/tasks/prompt_manager.py
index 982a66549..cb9f94d04 100644
--- a/src/lighteval/tasks/prompt_manager.py
+++ b/src/lighteval/tasks/prompt_manager.py
@@ -92,7 +92,7 @@ def doc_to_fewshot_sorting_class(formatted_doc: Doc) -> str:
             formatted_doc (Doc): Formatted document.
 
         Returns:
-            str: Class of the
+            str: Class of the fewshot document
         """
         return formatted_doc.fewshot_sorting_class or PromptManager.doc_to_target(formatted_doc)
 
@@ -356,12 +356,13 @@ def _init_fewshot_sampling_sequential(self, num_fewshot: int, variance_seed: int
         self._fewshot_cache[variance_seed] = fewshotpool  # Store few shot examples
 
     def _init_fewshot_sampling_random(self, variance_seed: int):
-        fewshotpool = self.task.fewshot_docs()
+        fewshotpool = list(self.task.fewshot_docs())
         if variance_seed == 0:
             self._fewshot_cache[variance_seed] = fewshotpool
         else:  # we shuffle
             rnd = random.Random(variance_seed)
-            self._fewshot_cache[variance_seed] = rnd.shuffle(fewshotpool)
+            rnd.shuffle(fewshotpool)
+            self._fewshot_cache[variance_seed] = fewshotpool
 
     def _init_fewshot_sampling_balanced(
         self,
diff --git a/tests/test_prompt_manager.py b/tests/test_prompt_manager.py
new file mode 100644
index 000000000..239f6fd6c
--- /dev/null
+++ b/tests/test_prompt_manager.py
@@ -0,0 +1,62 @@
+# MIT License
+
+# Copyright (c) 2024 The HuggingFace Team
+
+# Permission is hereby granted, free of charge, to any person obtaining a copy
+# of this software and associated documentation files (the "Software"), to deal
+# in the Software without restriction, including without limitation the rights
+# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+# copies of the Software, and to permit persons to whom the Software is
+# furnished to do so, subject to the following conditions:
+
+# The above copyright notice and this permission notice shall be included in all
+# copies or substantial portions of the Software.
+
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+# SOFTWARE.
+
+import random
+from collections import Counter
+
+import pytest
+
+from lighteval.tasks.lighteval_task import LightevalTask, LightevalTaskConfig
+from lighteval.tasks.prompt_manager import FewShotSampler, PromptManager
+from lighteval.tasks.requests import Doc
+
+
+@pytest.mark.parametrize("fewshot_select", ["sequential", "random", "balanced"])
+def test_fewshot_sampler(fewshot_select: str):
+    config = LightevalTaskConfig(
+        name="test_fewshot_task",
+        prompt_function=lambda _, __: None,
+        hf_repo=None,
+        hf_subset="default",
+        metric=[],
+        few_shots_split="test",
+        few_shots_select=fewshot_select,
+    )
+    task = LightevalTask("test_fewshot_task", config)
+    rnd = random.Random(0)
+    task._fewshot_docs = [
+        Doc(str(i), ["A", "B"], rnd.randint(0, 2), fewshot_sorting_class=str(i % 20)) for i in range(100)
+    ]
+    sampler = FewShotSampler(task)
+    seed = 1
+    docs = sampler.sample_fewshot_examples(20, seed)
+    match task.fewshot_selection:
+        case "balanced":
+            labels = Counter([PromptManager.doc_to_fewshot_sorting_class(d) for d in docs])
+            assert labels.total() / len(labels) == 1
+        case "sequential":
+            assert docs == task.fewshot_docs()[:20]
+        case "random":
+            rnd = random.Random(seed)
+            task_docs = task.fewshot_docs()
+            rnd.shuffle(task_docs)
+            assert docs == task_docs[:20]

From 0135c2e6dc7ab273a8a5e2e33c3209541ddba8b7 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Cl=C3=A9mentine=20Fourrier?=
 <22726840+clefourrier@users.noreply.github.com>
Date: Thu, 12 Dec 2024 13:07:54 +0100
Subject: [PATCH 11/12] Fix custom arabic tasks (#440)

* removed unused params

* fix issue with task function
---
 community_tasks/_template.py                 |  2 --
 community_tasks/arabic_evals.py              | 18 +-----------------
 docs/source/adding-a-custom-task.mdx         |  9 ---------
 docs/source/saving-and-reading-results.mdx   |  2 --
 examples/nanotron/custom_evaluation_tasks.py | 16 ----------------
 examples/nanotron/custom_task.py             |  4 ----
 6 files changed, 1 insertion(+), 50 deletions(-)

diff --git a/community_tasks/_template.py b/community_tasks/_template.py
index 345aebe4b..d0099ba26 100644
--- a/community_tasks/_template.py
+++ b/community_tasks/_template.py
@@ -99,8 +99,6 @@ def __init__(
             suite=["community"],
             generation_size=-1,
             stop_sequence=None,
-            output_regex=None,
-            frozen=False,
         )
 
 
diff --git a/community_tasks/arabic_evals.py b/community_tasks/arabic_evals.py
index 382a780d3..07a096eca 100644
--- a/community_tasks/arabic_evals.py
+++ b/community_tasks/arabic_evals.py
@@ -109,8 +109,6 @@ def __init__(
             suite=["community"],
             generation_size=-1,
             stop_sequence=None,
-            output_regex=None,
-            frozen=False,
             trust_dataset=True,
             version=0,
         )
@@ -174,8 +172,6 @@ def __init__(
             suite=["community"],
             generation_size=-1,
             stop_sequence=None,
-            output_regex=None,
-            frozen=False,
             trust_dataset=True,
             version=0,
         )
@@ -241,8 +237,6 @@ def __init__(
             suite=["community"],
             generation_size=-1,
             stop_sequence=None,
-            output_regex=None,
-            frozen=False,
             trust_dataset=True,
             version=0,
         )
@@ -299,8 +293,6 @@ def __init__(
             suite=["community"],
             generation_size=-1,
             stop_sequence=None,
-            output_regex=None,
-            frozen=False,
             trust_dataset=True,
             version=0,
         )
@@ -361,8 +353,6 @@ def __init__(
             suite=["community"],
             generation_size=-1,
             stop_sequence=[],
-            output_regex=None,
-            frozen=False,
             trust_dataset=True,
             version=0,
         )
@@ -423,9 +413,7 @@ def arabic_exams_pfn(line, task_name: str = None):
 def alghafa_pfn(line, task_name: str = None):
     question = line["query"]
     answer_index = int(line["label"])
-    # Dynamically determining the choices by excluding '__few_shots', 'query' and 'label'
-    choices_keys = [key for key in line.keys() if key not in ["query", "label", "__few_shots"]]
-    choices = [line[key] for key in choices_keys]
+    choices = [line[key] for key in ["sol1", "sol2", "sol3", "sol4"]]
 
     instruction = "الأسئلة التالية هي أسئلة متعددة الإختيارات مع الجواب الصحيح\n\n"
     query = f"{instruction}السؤال: {question}\n"
@@ -461,8 +449,6 @@ def __init__(
             suite=["community"],
             generation_size=-1,
             stop_sequence=None,
-            output_regex=None,
-            frozen=False,
             trust_dataset=True,
             version=0,
         )
@@ -839,8 +825,6 @@ def __init__(
             suite=["community"],
             generation_size=-1,
             stop_sequence=None,
-            output_regex=None,
-            frozen=False,
             trust_dataset=True,
             version=0,
         )
diff --git a/docs/source/adding-a-custom-task.mdx b/docs/source/adding-a-custom-task.mdx
index 2fbff5524..e1823b7b9 100644
--- a/docs/source/adding-a-custom-task.mdx
+++ b/docs/source/adding-a-custom-task.mdx
@@ -107,8 +107,6 @@ class CustomSubsetTask(LightevalTaskConfig):
             suite=["community"],
             generation_size=-1,
             stop_sequence=None,
-            output_regex=None,
-            frozen=False,
         )
 SUBSET_TASKS = [CustomSubsetTask(name=f"mytask:{subset}", hf_subset=subset) for subset in SAMPLE_SUBSETS]
 ```
@@ -154,13 +152,6 @@ Here is a list of the parameters and their meaning:
   for your generation
 - `metric` (list), the metrics you want to use for your evaluation (see next
   section for a detailed explanation)
-- `output_regex` (str), A regex string that will be used to filter your
-  generation. (Generative metrics will only select tokens that are between the
-  first and the second sequence matched by the regex. For example, for a regex
-  matching `\n` and a generation `\nModel generation output\nSome other text`
-  the metric will only be fed with `Model generation output`)
-- `frozen` (bool), for now, is set to False, but we will steadily pass all
-  stable tasks to True.
 - `trust_dataset` (bool), set to True if you trust the dataset.
 
 
diff --git a/docs/source/saving-and-reading-results.mdx b/docs/source/saving-and-reading-results.mdx
index 8c347cee2..993d7577b 100644
--- a/docs/source/saving-and-reading-results.mdx
+++ b/docs/source/saving-and-reading-results.mdx
@@ -170,9 +170,7 @@ The detail file contains the following columns:
       "stop_sequence": [
         "Question="
       ],
-      "output_regex": null,
       "num_samples": null,
-      "frozen": false,
       "suite": [
         "lighteval"
       ],
diff --git a/examples/nanotron/custom_evaluation_tasks.py b/examples/nanotron/custom_evaluation_tasks.py
index 9ae066715..78c354916 100644
--- a/examples/nanotron/custom_evaluation_tasks.py
+++ b/examples/nanotron/custom_evaluation_tasks.py
@@ -267,8 +267,6 @@ def __init__(
         generation_size=40,
         trust_dataset=True,
         stop_sequence=None,
-        output_regex=None,
-        frozen=False,
     ):
         super().__init__(
             name=name,
@@ -282,8 +280,6 @@ def __init__(
             few_shots_select=few_shots_select,
             suite=suite,
             generation_size=generation_size,
-            output_regex=output_regex,
-            frozen=frozen,
             trust_dataset=trust_dataset,
             stop_sequence=(stop_sequence if stop_sequence is not None else ["\n"]),
         )
@@ -370,8 +366,6 @@ def __init__(
         generation_size=-1,
         trust_dataset=True,
         stop_sequence=None,
-        output_regex=None,
-        frozen=False,
     ):
         super().__init__(
             name=name,
@@ -387,8 +381,6 @@ def __init__(
             generation_size=generation_size,
             trust_dataset=trust_dataset,
             stop_sequence=(stop_sequence if stop_sequence is not None else ["\n"]),
-            output_regex=output_regex,
-            frozen=frozen,
         )
 
 
@@ -487,8 +479,6 @@ def __init__(
         generation_size=4,
         trust_dataset=True,
         stop_sequence=None,
-        output_regex=None,
-        frozen=False,
     ):
         super().__init__(
             name=name,
@@ -504,8 +494,6 @@ def __init__(
             generation_size=generation_size,
             trust_dataset=trust_dataset,
             stop_sequence=(stop_sequence if stop_sequence is not None else ["\n"]),
-            output_regex=output_regex,
-            frozen=frozen,
         )
 
 
@@ -623,8 +611,6 @@ def __init__(
         generation_size=-1,
         trust_dataset=True,
         stop_sequence=None,
-        output_regex=None,
-        frozen=False,
     ):
         super().__init__(
             name=name,
@@ -640,8 +626,6 @@ def __init__(
             generation_size=generation_size,
             trust_dataset=trust_dataset,
             stop_sequence=(stop_sequence if stop_sequence is not None else ["\n"]),
-            output_regex=output_regex,
-            frozen=frozen,
         )
 
 
diff --git a/examples/nanotron/custom_task.py b/examples/nanotron/custom_task.py
index 05cea969f..feaa849ba 100644
--- a/examples/nanotron/custom_task.py
+++ b/examples/nanotron/custom_task.py
@@ -82,8 +82,6 @@ def mmlu_anatomy(line):
         generation_size=5,
         metric=[Metrics.loglikelihood_acc_single_token],
         stop_sequence=["\n"],
-        output_regex=None,
-        frozen=False,
     ),
     LightevalTaskConfig(
         name="mmlu:anatomy_signs",
@@ -98,7 +96,5 @@ def mmlu_anatomy(line):
         generation_size=5,
         metric=[Metrics.loglikelihood_acc_single_token],
         stop_sequence=["\n"],
-        output_regex=None,
-        frozen=False,
     ),
 ]

From 93a056fe4249281107baafc2a936e34f7f59e111 Mon Sep 17 00:00:00 2001
From: Albert Villanova del Moral
 <8515462+albertvillanova@users.noreply.github.com>
Date: Thu, 12 Dec 2024 16:30:45 +0100
Subject: [PATCH 12/12] Fix imports from model_config (#443)

---
 docs/source/using-the-python-api.mdx | 2 +-
 src/lighteval/main_endpoint.py       | 4 ++--
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/docs/source/using-the-python-api.mdx b/docs/source/using-the-python-api.mdx
index 2e160a679..8c44050f4 100644
--- a/docs/source/using-the-python-api.mdx
+++ b/docs/source/using-the-python-api.mdx
@@ -11,7 +11,7 @@ After that, simply run the pipeline and save the results.
 ```python
 import lighteval
 from lighteval.logging.evaluation_tracker import EvaluationTracker
-from lighteval.models.model_config import VLLMModelConfig
+from lighteval.models.vllm.vllm_model import VLLMModelConfig
 from lighteval.pipeline import ParallelismManager, Pipeline, PipelineParameters
 from lighteval.utils.utils import EnvConfig
 from lighteval.utils.imports import is_accelerate_available
diff --git a/src/lighteval/main_endpoint.py b/src/lighteval/main_endpoint.py
index 952aae074..be75b711a 100644
--- a/src/lighteval/main_endpoint.py
+++ b/src/lighteval/main_endpoint.py
@@ -93,7 +93,7 @@ def openai(
     Evaluate OPENAI models.
     """
     from lighteval.logging.evaluation_tracker import EvaluationTracker
-    from lighteval.models.model_config import OpenAIModelConfig
+    from lighteval.models.endpoints.openai_model import OpenAIModelConfig
     from lighteval.pipeline import EnvConfig, ParallelismManager, Pipeline, PipelineParameters
 
     env_config = EnvConfig(token=TOKEN, cache_dir=cache_dir)
@@ -317,7 +317,7 @@ def tgi(
     import yaml
 
     from lighteval.logging.evaluation_tracker import EvaluationTracker
-    from lighteval.models.model_config import TGIModelConfig
+    from lighteval.models.endpoints.tgi_model import TGIModelConfig
     from lighteval.pipeline import EnvConfig, ParallelismManager, Pipeline, PipelineParameters
 
     env_config = EnvConfig(token=TOKEN, cache_dir=cache_dir)