Welcome to star this project❤ DeepSeek V3 Calculator

MFU Calculation

gpu_top_flops（TFLOS/s）：

gpu_nums：

gbs（global batch size）：

seq_len：

hidden_size（=num_heads * d_model）：

num_heads：

d_model：

vocab_size：

MQA（num_query_groups）：

ffn_hidden_size：

layer_nums：

cp(context parallel)：

share_experts：

top_k（default: 0）：

None（default）

step_time(s)：

0

Calculation Formulas

Model Type: MoE Llama GPT

Embedding Flops:

Attention Layer Flops:

MLP Layer Flops:

MoE Layer Flops:

Total Model Flops:

MFU Calculation: