Fine-Tuning ViVit with HuggingFace Trainer

This repository contains a Python script to fine-tune the open-source Video Vision Transformer (ViVit) model using the HuggingFace Trainer Library. The model has been configured for 10 classes.

Introduction

The Video Vision Transformer (ViVit) is a state-of-the-art model for video understanding tasks. This repository provides a script to fine-tune the ViVit model on your custom dataset using the HuggingFace Trainer Library. The model is pre-configured to classify videos into 10 different classes.

Installation

To get started, clone this repository and install the required dependencies:

pip install -r requirements.txt

Dataset Preparation

Prepare your dataset in the following format:

DatasetDict({
    train: Dataset({
        features: ['labels', 'pixel_values'],
        num_rows: 36
    })
    test: Dataset({
        features: ['labels', 'pixel_values'],
        num_rows: 4
    })
})

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
README.md		README.md
data_handling.py		data_handling.py
model_configuration.py		model_configuration.py
preprocessing.py		preprocessing.py
requirements.txt		requirements.txt
training.py		training.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Fine-Tuning ViVit with HuggingFace Trainer

Introduction

Installation

Dataset Preparation

About

Releases

Packages

Languages

sanket-poojary-03/Fine-tuning-ViVit

Folders and files

Latest commit

History

Repository files navigation

Fine-Tuning ViVit with HuggingFace Trainer

Introduction

Installation

Dataset Preparation

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages