AutoEncoder VQA: Visual Question Answering with Multimodal Architecture

📋 Overview

This project implements a sophisticated Visual Question Answering (VQA) system that combines BERT for text understanding and Vision Transformer (ViT) with Masked Autoencoder (MAE) for visual processing. The model uses cross-attention mechanisms to fuse multimodal information and generate accurate answers to questions about images.

🏗️ Architecture

The system consists of several key components:

Text Encoder: Pre-trained BERT model for question understanding
Visual Encoder: Vision Transformer with MAE pre-training for image feature extraction
Cross-Attention Layers: Bidirectional attention mechanisms for multimodal fusion
Decoder: Transformer decoder with positional embeddings for answer generation
Data Loaders: COCO-VQA dataset handling with efficient preprocessing

📁 Project Structure

AutoEncoder_VQA/
├── README.md                    # This file
├── requirements.txt             # Python dependencies
├── config/
│   └── config.yaml             # Configuration settings
├── dataloaders/                # Data loading and preprocessing
│   ├── __init__.py
│   ├── coco_dataloader.py      # COCO-VQA dataset loader
│   ├── dataloader.py           # Base dataset classes
│   └── mscoco_dataloader.py    # MS-COCO specific loader
├── models/                     # Model architectures
│   ├── __init__.py
│   ├── co_decoder_posi_v4_2.py # Latest multimodal model
│   ├── positional_embedding.py # Positional encoding utilities
│   ├── cross_attention_model.py # Cross-attention implementations
│   └── [other model variants]
├── visual_embed/               # Visual encoding components
│   ├── __init__.py
│   ├── models.py               # MAE encoder wrapper
│   ├── models_mae.py           # MAE implementation
│   └── util/                   # Utility functions
├── question_embed/             # Text encoding components
│   ├── __init__.py
│   └── pretrained_bert.py      # BERT utilities
├── trainings/                  # Training scripts
│   ├── train_decoder_posi_v4_2.py # Main training script
│   ├── train.py                # Basic training
│   └── [other training variants]
├── results/                    # Output results
├── scripts/                    # Utility scripts
└── tests/                      # Unit tests

🚀 Getting Started

Prerequisites

Python 3.8+
CUDA-capable GPU (recommended)
16GB+ RAM

Installation

Clone the repository:

git clone https://github.com/VincentPit/AutoEncoder_VQA.git
cd AutoEncoder_VQA

Create a virtual environment:

python -m venv venv
source venv/bin/activate  # On Windows: venv\Scripts\activate

Install dependencies:

pip install -r requirements.txt

Download pre-trained models and datasets:

python scripts/download_pretrained.py
python scripts/download_dataset.py

Quick Start

Training a model:

python trainings/train_decoder_posi_v4_2.py --config config/config.yaml

Evaluating a model:

python scripts/evaluate.py --model_path checkpoints/best_model.pth

Interactive inference:

python scripts/interactive.py --model_path checkpoints/best_model.pth

🔧 Configuration

Main configuration parameters in config/config.yaml:

model:
  max_seq_length: 512
  dropout_rate: 0.1
  num_attention_heads: 8
  
training:
  batch_size: 16
  learning_rate: 1e-5
  num_epochs: 50
  warmup_steps: 1000
  
data:
  train_images: "train2014/"
  val_images: "val2014/"
  annotations: "v2_mscoco_train2014_annotations.json"
  questions: "v2_OpenEnded_mscoco_train2014_questions.json"

📊 Model Performance

Model Version	BLEU-4	CIDEr	Accuracy
v4.2 (Latest)	0.234	0.891	67.3%
v4.0	0.221	0.867	65.1%
v3.0	0.198	0.834	62.8%

🧪 Experiments

Model Variants

co_decoder_posi_v4_2: Latest model with improved cross-attention and positional embeddings
cross_attention_model: Baseline cross-attention architecture
transfer_cross_attention: Transfer learning approach

Training Strategies

Frozen Encoders: BERT and ViT parameters frozen during training
Mixed Precision: FP16 training for memory efficiency
Gradient Accumulation: Effective batch size scaling
Learning Rate Scheduling: Cosine annealing with warmup

📈 Results and Analysis

Qualitative Results

The model shows strong performance on:

Object identification and counting
Spatial relationship understanding
Color and attribute recognition
Scene description

Limitations

Complex reasoning about multiple objects
Abstract concept understanding
Numerical calculations

🛠️ Development

Code Style

This project follows PEP 8 guidelines with additional conventions:

Use type hints where possible
Comprehensive docstrings for all classes and functions
Modular design with clear separation of concerns

Testing

Run tests with:

python -m pytest tests/ -v

Contributing

Fork the repository
Create a feature branch (git checkout -b feature/amazing-feature)
Commit your changes (git commit -m 'Add amazing feature')
Push to the branch (git push origin feature/amazing-feature)
Open a Pull Request

📚 References

Devlin, J., et al. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." NAACL 2019.
He, K., et al. "Masked Autoencoders Are Scalable Vision Learners." CVPR 2022.
Antol, S., et al. "VQA: Visual Question Answering." ICCV 2015.

📄 License

This project is licensed under the MIT License - see the LICENSE file for details.

🙏 Acknowledgments

Hugging Face Transformers library
PyTorch team
COCO dataset creators
MAE authors for pre-trained models

📧 Contact

Author: Vincent Pit
Email: vincent.pit@example.com
Project Link: https://github.com/VincentPit/AutoEncoder_VQA

Note: This project is actively maintained. Please check the Issues tab for known problems and the Projects tab for upcoming features.

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
__pycache__		__pycache__
config		config
cross_attention		cross_attention
dataloaders		dataloaders
models		models
question_embed		question_embed
results		results
scripts		scripts
tests		tests
trainings		trainings
utils		utils
visual_embed		visual_embed
.gitignore		.gitignore
DEVELOPMENT.md		DEVELOPMENT.md
IMPROVEMENTS.md		IMPROVEMENTS.md
LICENSE		LICENSE
README.md		README.md
check4_2.py		check4_2.py
pad_decoder.py		pad_decoder.py
requirements.txt		requirements.txt
setup.py		setup.py
show_case_cross.py		show_case_cross.py
show_case_cross_attention.py		show_case_cross_attention.py
test_coco_loader.py		test_coco_loader.py
verify_showcase.py		verify_showcase.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

AutoEncoder VQA: Visual Question Answering with Multimodal Architecture

📋 Overview

🏗️ Architecture

📁 Project Structure

🚀 Getting Started

Prerequisites

Installation

Quick Start

🔧 Configuration

📊 Model Performance

🧪 Experiments

Model Variants

Training Strategies

📈 Results and Analysis

Qualitative Results

Limitations

🛠️ Development

Code Style

Testing

Contributing

📚 References

📄 License

🙏 Acknowledgments

📧 Contact

About

Uh oh!

Releases

Packages

Languages

License

VincentPit/AutoEncoder_VQA

Folders and files

Latest commit

History

Repository files navigation

AutoEncoder VQA: Visual Question Answering with Multimodal Architecture

📋 Overview

🏗️ Architecture

📁 Project Structure

🚀 Getting Started

Prerequisites

Installation

Quick Start

🔧 Configuration

📊 Model Performance

🧪 Experiments

Model Variants

Training Strategies

📈 Results and Analysis

Qualitative Results

Limitations

🛠️ Development

Code Style

Testing

Contributing

📚 References

📄 License

🙏 Acknowledgments

📧 Contact

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages