Minimal Llama

demo.mp4

Blazingly fast minimal implementation of Llama 3.2 1B in PyTorch (~400 lines).

Uses unsloth/Llama-3.2-1B-Instruct tokenizer and weights.

Install

pip install torch transformers huggingface_hub safetensors fire termcolor

Usage

python main.py --context_length 8192 \      # optional
               --seed 123 \                 # optional
               --max_new_tokens 1000 \      # optional
               --temperature 0.0 \          # optional, 0 for deterministic output
               --top_k 1 \                  # optional
               --force_cpu                  # optional, use CPU even if GPU is available

Example:

python main.py

Features

KV caching for efficient inference
RoPE position embeddings with scaling
Interactive chat interface in the terminal
Support for GPU, MPS (Mac), and CPU inference

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.gitignore		.gitignore
README.md		README.md
main.py		main.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Minimal Llama

Install

Usage

Features

About

Uh oh!

Releases

Packages

Languages

Maicon-Moreira/minimal-llama

Folders and files

Latest commit

History

Repository files navigation

Minimal Llama

Install

Usage

Features

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages