TempBalance-LM

Language Modeling Experiments of paper: Temperature Balancing, Layer-wise Weight Analysis, and Neural Network Training [NeurIPS 2023 Spotlight]

Yefan Zhou, Tianyu Pang, Keqin Liu, Charles H. Martin, Michael W. Mahoney, Yaoqing Yang

Install

bash install.sh
conda activate ww_train_lm
bash penn_tree.sh

Usage

from tempbalance import Tempbalance
import torch
model = ...
# initialize necessary hyperparameters
start_lr = ...
total_steps = ...
# initialize the scheduler
tb_scheduler = Tempbalance(net=model,
                start_lr=start_lr,
                total_steps=total_steps,
                lr_min_ratio=0.5,
                lr_max_ratio=1.5
                )
# initialize optimizer parameter group
tb_param_group = tb_scheduler.build_optimizer_param_group(untuned_lr=0.1)
optimizer = optim.SGD(
    tb_param_group,
    ...
)
# training loop
for epoch in range(1, ...):
    ...
    train()
    test()
    # get global decayed learning rate
    untuned_global_lr = some_torch_lr_scheduler(epoch)
    # temperature balancing
    tb_scheduler.step(optimizer, untuned_global_lr, current_step)
    ...

Experiments

# Baseline 
bash ./BTD-Transformer/scripts/tensorized/run_ptb.sh

# TempBalance
bash ./BTD-Transformer/scripts/tensorized/run_ptb_tb.sh

Acknowledgement

We thank the open-sourced codebase The-compression-of-Transformer.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
BTD-Transformer		BTD-Transformer
README.md		README.md
tempbalance.py		tempbalance.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

TempBalance-LM

Language Modeling Experiments of paper: Temperature Balancing, Layer-wise Weight Analysis, and Neural Network Training [NeurIPS 2023 Spotlight]

Install

Usage

Experiments

Acknowledgement

About

Uh oh!

Releases

Packages

Languages

zihanghliu/TempBalance-LM

Folders and files

Latest commit

History

Repository files navigation

TempBalance-LM

Language Modeling Experiments of paper: Temperature Balancing, Layer-wise Weight Analysis, and Neural Network Training [NeurIPS 2023 Spotlight]

Install

Usage

Experiments

Acknowledgement

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages