Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Baselines evaluated only for part of datasets #20

Open
ShikovEgor opened this issue Jun 23, 2023 · 13 comments
Open

Baselines evaluated only for part of datasets #20

ShikovEgor opened this issue Jun 23, 2023 · 13 comments
Labels
invalid This doesn't seem right

Comments

@ShikovEgor
Copy link
Collaborator

В базе запусков 16 датасетов размечены как тестовые (см. строки с is_train=0):
https://github.com/ITMO-NSS-team/MetaFEDOT/blob/main/data/knowledge_base_0/train_test_datasets_classification.csv
Однако расчеты бейзлайнов с помощью AutoSklearn и Random Forest classifier были проведены лишь для 8 датасетов (см. скрин).

tempsnip

@MorrisNein
Copy link
Collaborator

Фактически, это база без бейзлайна. То, что для некоторых датасетов есть random forest, это скорее случайность.

База с бейзлайнами в процессе вычисления

@ShikovEgor
Copy link
Collaborator Author

Не, я про другое. В данных из чата есть 8 датасетов, на которых посчитаны результаты 1) Auto-sklearn 2) RandomForest.
А в базе 16 датасетов отмечены как тестовые.

@nicl-nno
Copy link
Contributor

@algormx можно для них досчитать или для этого что-то ещё нужно?

@AxiomAlive
Copy link
Collaborator

Добрый день!

Провести расчеты на кэшируемых датасетах возможно, но опять же нужна разметка на тренировочную и тестовую выборки. Ставил ранее такой вопрос #11.

Касаемо данного ишью, то мы скорее должны провести эксперименты на OpenML-CC18 бэнчмарке, база результатов запусков по которому как я понимаю еще в процессе сбора.

Есть еще вопрос, связанный с постановкой эксперимента: для того, чтобы добиться репродуцируемых результатов, возможно стоит запускать baselines на одной и той же ВМ?

@ShikovEgor
Copy link
Collaborator Author

  1. разметка есть https://github.com/ITMO-NSS-team/MetaFEDOT/blob/main/data/knowledge_base_0/train_test_datasets_classification.csv
    И, если я не ошибаюсь, Петр ответил, как ее можно получить в последнем сообщении здесь:
    Experimental data #11.
  2. По поводу репродуцируемых результатов: а сиды фиксируются сейчас?

@AxiomAlive
Copy link
Collaborator

AxiomAlive commented Jun 29, 2023

Разметка все-таки для других данных. Если планируется использовать их, то не вопрос.

Seed 42.

@ShikovEgor
Copy link
Collaborator Author

Возможно, я что-то путаю. Насколько я понимаю, разметка для данных из базы в репозитории.
image

@ShikovEgor
Copy link
Collaborator Author

@MorrisNein можешь помочь разобраться?

@MorrisNein
Copy link
Collaborator

MorrisNein commented Jun 30, 2023

@ShikovEgor, насколько я понимаю, @algormx посчитал бейзлайны иным образом, чем посчитаны данные

Во-первых, таким образом нашлись не все датасеты, что и послужило причиной вопроса в этой issue. Во-вторых, такие бейзлайны не очень корректны

Хорошо бы их считать через обвязку другого проекта на заранее разбитых по фолдам данных, потому что так была рассчитана вся база

Но если не через ту обвязку, то хотя бы на тех же данных. Они есть в хранилище лаборатории

@algormx, не стесняйтесь задавать вопросы. Можно в ЛС, а не через issue, для скорости коммуникации

@AxiomAlive
Copy link
Collaborator

Добрый день!

Спасибо за пояснение.

То есть запускаем на разных машинах? И что касается бэнчмарка, который я волей судьбы проводил - для него baseline-расчеты планируются?

@nicl-nno
Copy link
Contributor

nicl-nno commented Jul 3, 2023

То есть запускаем на разных машинах?

В идеале надо на одной, конечно. Но для этого надо все упаковать в единый код.

@AxiomAlive
Copy link
Collaborator

Добрый день!

По итогам предварительных запусков - kddcup09_appetency и kddcup99_full проблемные при текущих условиях эксперимента с auto-sklearn. Для первого датасета не находится ничего лучше dummy model, а для другого по всей видимости не хватает 8гб оперативки.

Есть предположения касаемо количества датасетов, на которых желательно провести сравнение для текущей статейной итерации?

@nicl-nno
Copy link
Contributor

nicl-nno commented Jul 4, 2023

По нашему опыту на kddcup99_full и 32Гб не хватает. Результат с dummy_model норм для сравнения.

По количеству - да в целом чем больше, тем лучше. На этом же ещё мета-модели обучать.

@DRMPN DRMPN added the invalid This doesn't seem right label Aug 2, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
invalid This doesn't seem right
Projects
None yet
Development

No branches or pull requests

5 participants