VAR-CLIP:
Text-to-Image Generator with Visual Auto-Regressive Modeling

VAR-CLIP: Text-to-Image Generator with Visual Auto-Regressive Modeling
Qian Zhang, Xiangzi Dai, Ninghua Yang, Xiang An, Ziyong Feng, Xingyu Ren
Institute of Applied Physics and Computational Mathematics, DeepGlint,Shanghai Jiao Tong University

Some example for text-conditional generation:

.

Some example for class-conditional generation:

.

TODO

Relased Pre_train model.
Relased train code.
Relased Arxiv.
Training T2I on the ImageNet dataset has been completed.
Training on the ImageNet dataset has been completed.

Getting Started

Requirements

pip install -r requirements.txt

Download Pretrain model/Dataset

1. Place the downloaded ImageNet train/val parts separately under train/val in the directory ./imagenet/
2. Download clip/vae pretrain model put on pretrained/

Download ClIP_L14
Download VAE

Training Scripts

# training VAR-CLIP-d16 for 1000 epochs on ImageNet 256x256 costs 4.1 days on 64 A100s
# Before running, you need to configure the IP addresses of multiple machines in the run.py file and data_path
python run.py

demo Scripts

# you can run demo_samle.ipynb get text-conditional generation resulets after train completed.
demo_sample.ipynb

License

This project is licensed under the MIT License - see the LICENSE file for details.

Citations

@misc{zhang2024varclip,
      title={VAR-CLIP: Text-to-Image Generator with Visual Auto-Regressive Modeling}, 
      author={Qian Zhang and Xiangzi Dai and Ninghua Yang and Xiang An and Ziyong Feng and Xingyu Ren},
      year={2024},
      journal={arXiv:2408.01181},
}

VAR - https://github.com/FoundationVision/VAR
CLIP - https://github.com/openai/CLIP

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
imagenet		imagenet
img		img
logs		logs
models		models
tokenizer		tokenizer
utils		utils
README.md		README.md
clip_util.py		clip_util.py
demo_sample.ipynb		demo_sample.ipynb
dist.py		dist.py
requirements.txt		requirements.txt
run.py		run.py
train.py		train.py
trainer.py		trainer.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

VAR-CLIP:
Text-to-Image Generator with Visual Auto-Regressive Modeling

Some example for text-conditional generation:

Some example for class-conditional generation:

TODO

Getting Started

Requirements

Download Pretrain model/Dataset

Training Scripts

demo Scripts

License

Citations

About

Releases

Packages

Contributors 2

Languages

daixiangzi/VAR-CLIP

Folders and files

Latest commit

History

Repository files navigation

VAR-CLIP: Text-to-Image Generator with Visual Auto-Regressive Modeling

Some example for text-conditional generation:

Some example for class-conditional generation:

TODO

Getting Started

Requirements

Download Pretrain model/Dataset

Training Scripts

demo Scripts

License

Citations

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

VAR-CLIP:
Text-to-Image Generator with Visual Auto-Regressive Modeling

Packages