KD-pytorch

Knowledge Distillation (KD) - pytorch
PyTorch implementation of Distilling the Knowledge in a Neural Network
This repository is forked from pytorch-cifar.
Dataset: CIFAR10
Teacher Network: VGG16
Student Network: CNN with 3 convolutional blocks

Prerequisites

Python 3.6+
PyTorch 1.0+
See docker/ folder.

Pretrain Teacher Networks

Result: 91.90%
SGD, no weight decay.
Learning rate adjustment
- 0.1 for epoch [1,150]
- 0.01 for epoch [151,250]
- 0.001 for epoch [251,300]

python -m pretrainer --optimizer=sgd --lr=0.1   --start_epoch=1   --n_epoch=150 --model_name=ckpt
python -m pretrainer --optimizer=sgd --lr=0.01  --start_epoch=151 --n_epoch=100 --model_name=ckpt --resume
python -m pretrainer --optimizer=sgd --lr=0.001 --start_epoch=251 --n_epoch=50  --model_name=ckpt --resume

Student Networks

We use Adam optimizer for fair comparison.
- max epoch: 300
- learning rate: 0.0001
- no weight decay for fair comparison.

EXP0. Baseline (without Knowledge Distillation)

Result: 85.01%

python -m pretrainer --optimizer=adam --lr=0.0001 --start_epoch=1 --n_epoch=300 --model_name=student-scratch --network=studentnet

EXP1. Effect of loss function

Similar performance.

python -m trainer --T=1.0 --alpha=1.0 --kd_mode=cse # 84.99%
python -m trainer --T=1.0 --alpha=1.0 --kd_mode=mse # 84.85%

EXP2. Effect of Alpha

alpha = 0.5 may show better performance.

python -m trainer --T=1.0 --alpha=1.0 --kd_mode=cse # 84.99%
python -m trainer --T=1.0 --alpha=0.5 --kd_mode=cse # 85.38%
python -m trainer --T=1.0 --alpha=1.0 --kd_mode=mse # 84.85%
python -m trainer --T=1.0 --alpha=0.5 --kd_mode=mse # 84.92%

EXP3. Effect of Temperature Scaling

Higher the temperature, better the performance. Consistent results with the paper.

python -m trainer --T=1.0  --alpha=0.5 --kd_mode=cse # 85.38%
python -m trainer --T=2.0  --alpha=0.5 --kd_mode=cse # 85.27%
python -m trainer --T=4.0  --alpha=0.5 --kd_mode=cse # 86.46%
python -m trainer --T=8.0  --alpha=0.5 --kd_mode=cse # 86.33%
python -m trainer --T=16.0 --alpha=0.5 --kd_mode=cse # 86.58%

EXP4. More Alpha Tuning

alpha=0.5 seems to be local optimal.

python -m trainer --T=16.0 --alpha=0.1 --kd_mode=cse # 85.69%
python -m trainer --T=16.0 --alpha=0.3 --kd_mode=cse # 86.48%
python -m trainer --T=16.0 --alpha=0.5 --kd_mode=cse # 86.58%
python -m trainer --T=16.0 --alpha=0.7 --kd_mode=cse # 86.16%
python -m trainer --T=16.0 --alpha=0.9 --kd_mode=cse # 86.08%

EXP5. SGD Testing

python -m trainer --T=16.0 --alpha=0.5 --kd_mode=cse --optimizer=sgd-cifar10 # 87.04%
python -m pretrainer --model_name=student-scratch-sgd-cifar10 --network=studentnet --optimizer=sgd-cifar10 # 86.34%

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
docker		docker
models		models
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
dataset.py		dataset.py
pretrainer.py		pretrainer.py
trainer.py		trainer.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

KD-pytorch

Prerequisites

Pretrain Teacher Networks

Student Networks

EXP0. Baseline (without Knowledge Distillation)

EXP1. Effect of loss function

EXP2. Effect of Alpha

EXP3. Effect of Temperature Scaling

EXP4. More Alpha Tuning

EXP5. SGD Testing

TODO

About

Releases

Packages

Languages

License

JoonyoungYi/KD-pytorch

Folders and files

Latest commit

History

Repository files navigation

KD-pytorch

Prerequisites

Pretrain Teacher Networks

Student Networks

EXP0. Baseline (without Knowledge Distillation)

EXP1. Effect of loss function

EXP2. Effect of Alpha

EXP3. Effect of Temperature Scaling

EXP4. More Alpha Tuning

EXP5. SGD Testing

TODO

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages