CvT: Introducing Convolutions to Vision Transformers

Pytorch implementation of CvT: Introducing Convolutions to Vision Transformers , for official repo please visit here.

Usage:

img = torch.ones([1, 3, 224, 224])

model = CvT(224, 3, 1000)

parameters = filter(lambda p: p.requires_grad, model.parameters())
parameters = sum([np.prod(p.size()) for p in parameters]) / 1_000_000
print('Trainable Parameters: %.3fM' % parameters)

out = model(img)

print("Shape of out :", out.shape)  # [B, num_classes]

Citation:

@misc{wu2021cvt,
      title={CvT: Introducing Convolutions to Vision Transformers}, 
      author={Haiping Wu and Bin Xiao and Noel Codella and Mengchen Liu and Xiyang Dai and Lu Yuan and Lei Zhang},
      year={2021},
      eprint={2103.15808},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Acknowledgement:

Base ViT code is borrowed from @lucidrains repo : https://github.com/lucidrains/vit-pytorch

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
assets		assets
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
cvt.py		cvt.py
module.py		module.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CvT: Introducing Convolutions to Vision Transformers

Usage:

Citation:

Acknowledgement:

About

Releases

Packages

Languages

License

DLINLIN123/convolution-vision-transformers

Folders and files

Latest commit

History

Repository files navigation

CvT: Introducing Convolutions to Vision Transformers

Usage:

Citation:

Acknowledgement:

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages