NVIDIA-NeMo · ashors1 · Oct 14, 2025 · Oct 16, 2025 · Oct 21, 2025 · Oct 21, 2025
@@ -1,12 +1,12 @@
 [submodule "3rdparty/Megatron-LM"]
 	path = 3rdparty/Megatron-LM-workspace/Megatron-LM
 	url = https://github.com/terrykong/Megatron-LM.git
-	branch = yuya/nemo-rl-use-dev
+	branch = ashors/dev-with-gpt-oss
 	shallow = true
 [submodule "3rdparty/Megatron-Bridge"]
 	path = 3rdparty/Megatron-Bridge-workspace/Megatron-Bridge
 	url = https://github.com/NVIDIA-NeMo/Megatron-Bridge.git
-	branch = main
+	branch = ashors/gpt-oss-tot
 	shallow = true
 [submodule "3rdparty/Automodel-workspace/Automodel"]
 	path = 3rdparty/Automodel-workspace/Automodel

@@ -132,6 +132,12 @@ def __init__(
         self.cfg = config
 
         self.model_name = self.cfg["model_name"]
+        ## use the bf16 version of the model rather than the quantized version
+        ## megatron --> hf export is done in bf16 so this ensures the vllm
+        ## model is compatible with megatron
+        if "openai/gpt-oss" in self.model_name:
+            size = self.model_name.split("-")[-1]
+            self.model_name = f"unsloth/gpt-oss-{size}-BF16"
         self.tensor_parallel_size = self.cfg["vllm_cfg"]["tensor_parallel_size"]
         self.pipeline_parallel_size = self.cfg["vllm_cfg"]["pipeline_parallel_size"]
         self.expert_parallel_size = self.cfg["vllm_cfg"]["expert_parallel_size"]
+60 −12		src/megatron/bridge/models/conversion/param_mapping.py
+1 −0		src/megatron/bridge/models/gpt_oss/gpt_oss_bridge.py
+2 −2		src/megatron/bridge/models/gpt_oss/gpt_oss_provider.py
+4 −0		src/megatron/bridge/recipes/gpt_oss/__init__.py
+206 −3		src/megatron/bridge/recipes/gpt_oss/gpt_oss.py
+1 −1		megatron/core/fusions/fused_softmax.py
+4 −2		megatron/core/inference/unified_memory.py
+1 −0		megatron/core/model_parallel_config.py
+24 −26		megatron/core/models/common/embeddings/rope_utils.py
+66 −36		megatron/core/models/common/embeddings/yarn_rotary_pos_embedding.py
+8 −2		megatron/core/transformer/dot_product_attention.py
+0 −2		megatron/core/transformer/utils.py