ITMO-NSS-team · maypink · Nov 14, 2023 · Nov 16, 2023 · Nov 16, 2023 · Nov 16, 2023
diff --git a/.dockerignore b/.dockerignore
@@ -0,0 +1,13 @@
+# Config & info files
+.pep8speaks.yml
+Dockerfile
+LICENSE
+README.md
+
+# Unnecessary files
+examples
+notebooks
+test
+
+# User data
+data/cache
diff --git a/Dockerfile b/Dockerfile
@@ -0,0 +1,30 @@
+# Download base image ubuntu 20.04
+FROM ubuntu:20.04
+
+# For apt to be noninteractive
+ENV DEBIAN_FRONTEND noninteractive
+ENV DEBCONF_NONINTERACTIVE_SEEN true
+
+# Preseed tzdata, update package index, upgrade packages and install needed software
+RUN truncate -s0 /tmp/preseed.cfg; \
+    echo "tzdata tzdata/Areas select Europe" >> /tmp/preseed.cfg; \
+    echo "tzdata tzdata/Zones/Europe select Berlin" >> /tmp/preseed.cfg; \
+    debconf-set-selections /tmp/preseed.cfg && \
+    rm -f /etc/timezone /etc/localtime && \
+	apt-get update && \
+	apt-get install -y nano  && \
+	apt-get install -y mc && \
+    apt-get install -y python3.9 python3-pip && \
+	apt-get install -y git && \
+    rm -rf /var/lib/apt/lists/*
+
+# Set the workdir
+ENV WORKDIR /home/meta-automl-research
+WORKDIR $WORKDIR
+COPY . $WORKDIR
+
+RUN pip3 install pip && \
+    pip install wheel && \
+    pip install --trusted-host pypi.python.org -r ${WORKDIR}/requirements.txt
+
+ENV PYTHONPATH $WORKDIR
diff --git a/configs/run_surrogate_model.yml b/configs/run_surrogate_model.yml
@@ -9,12 +9,9 @@ model:
   model_parameters:
     pipe_encoder_type: "graph_transformer"
     dataset_encoder_type: "column"
-
-dataset_params:
-  root_path: "./data/pymfe_meta_features_and_fedot_pipelines/all"
 
 dataset_params:
   root_path: "./data/pymfe_meta_features_and_fedot_pipelines/all"
 
 model_data:
-  save_dir: "./experiments/base/"
+  save_dir: "./experiments/base2/"
diff --git a/examples/2_extracting_datasets_meta_features/load_and_extract_features_sequentially.py b/examples/2_extracting_datasets_meta_features/load_and_extract_features_sequentially.py
@@ -16,3 +16,4 @@ def main():
 
 if __name__ == '__main__':
     result = main()
+    print(result)
diff --git a/examples/6_gnn_surrogate/accessing_pipeline_dataset_encoders.py b/examples/6_gnn_surrogate/accessing_pipeline_dataset_encoders.py
@@ -8,7 +8,7 @@
     dataset_name = 'higgs'
     datasets_loader = OpenMLDatasetsLoader()
     dataset = datasets_loader.load_single(dataset_name, allow_name=True)
-    checkpoints_dir = get_checkpoints_dir() / 'tabular'
+    checkpoints_dir = get_checkpoints_dir() / 'base'
     # Load surrogate model
     surrogate_model = RankingPipelineDatasetSurrogateModel.load_from_checkpoint(
         checkpoint_path=checkpoints_dir / 'checkpoints/best.ckpt',

diff --git a/examples/6_gnn_surrogate/surrogate_optimizer_example.py b/examples/6_gnn_surrogate/surrogate_optimizer_example.py
@@ -16,7 +16,7 @@
     dataset_name = 'sylvine'  # Specify your OpenML dataset here to get the dataset meta-features.
     datasets_loader = OpenMLDatasetsLoader()
     train_data = datasets_loader.load_single(dataset_name, allow_name=True)
-    surrogate_knowledge_base_dir = get_checkpoints_dir() / 'tabular'
+    surrogate_knowledge_base_dir = get_checkpoints_dir() / 'base'
 
     # Load surrogate model
     surrogate_model = RankingPipelineDatasetSurrogateModel.load_from_checkpoint(

diff --git a/examples/knowledge_base_loading.py b/examples/knowledge_base_loading.py
@@ -19,7 +19,7 @@
     for dataset_id in train_datasets['dataset_id']:
         dataset_models = models_loader.load(
             dataset_ids=[dataset_id],   # load models just for this exact dataset.
-            fitness_metric='logloss',       # must correspond to a metric name in a knowledge base.
+            fitness_metric='logloss',       # must correspond to a metric name in a knowledge base2.
         )
         models_for_train[dataset_id] = dataset_models
 

diff --git a/experiments/__init__.py b/experiments/__init__.py
diff --git a/experiments/fedot_warm_start/__init__.py b/experiments/fedot_warm_start/__init__.py
diff --git a/experiments/fedot_warm_start/config.yaml b/experiments/fedot_warm_start/config.yaml
@@ -0,0 +1,17 @@
+---
+seed: 42
+tmpdir: '/var/essdata/tmp'
+#data_settings:
+n_datasets: null # null for all available datasets
+test_size: 0.25
+train_timeout: 15
+test_timeout: 15
+#meta_learning_params:
+n_best_dataset_models_to_memorize: 10
+mf_extractor_params:
+  groups: general
+assessor_params:
+  n_neighbors: 5
+advisor_params:
+  minimal_distance: 1
+  n_best_to_advise: 5
diff --git a/experiments/fedot_warm_start/config_debug.yaml b/experiments/fedot_warm_start/config_debug.yaml
@@ -0,0 +1,17 @@
+---
+seed: 42
+save_dir_prefix: debug_
+#data_settings:
+n_datasets: 3 # null for all available datasets
+test_size: 0.33
+train_timeout: 1
+test_timeout: 1
+#meta_learning_params:
+n_best_dataset_models_to_memorize: 10
+mf_extractor_params:
+  groups: general
+assessor_params:
+  n_neighbors: 2
+advisor_params:
+  minimal_distance: 1
+  n_best_to_advise: 5
diff --git a/experiments/fedot_warm_start/config_light.yaml b/experiments/fedot_warm_start/config_light.yaml
@@ -0,0 +1,17 @@
+---
+seed: 42
+tmpdir: '/var/essdata/tmp'
+#data_settings:
+n_datasets: 16 # null for all available datasets
+test_size: 0.25
+train_timeout: 15
+test_timeout: 15
+#meta_learning_params:
+n_best_dataset_models_to_memorize: 10
+mf_extractor_params:
+  groups: general
+assessor_params:
+  n_neighbors: 5
+advisor_params:
+  minimal_distance: 1
+  n_best_to_advise: 5
diff --git a/experiments/fedot_warm_start/configs_list.yaml b/experiments/fedot_warm_start/configs_list.yaml
@@ -0,0 +1,3 @@
+- config_debug.yaml
+- evaluation_config.yaml
+- fedot_config.yaml
diff --git a/experiments/fedot_warm_start/evaluation_config.yaml b/experiments/fedot_warm_start/evaluation_config.yaml
@@ -0,0 +1,11 @@
+n_folds: 1
+split_seed: 0
+collect_metrics:
+  - f1
+  - roc_auc
+  - accuracy
+  - neg_log_loss
+  - precision
+baseline_model: 'xgboost'
+data_test_size: 0.25
+data_split_seed: 0
diff --git a/experiments/fedot_warm_start/fedot_config.yaml b/experiments/fedot_warm_start/fedot_config.yaml
@@ -0,0 +1,6 @@
+fedot_params:
+  problem: classification
+  logging_level: 10
+  n_jobs: -1
+  show_progress: false
+  seed: 42
Original file line number	Diff line number	Diff line change
Expand Up		@@ -16,3 +16,4 @@ def main():

		if __name__ == '__main__':
		result = main()
		print(result)