InternLM · HIT-cwh · Apr 14, 2026
diff --git a/xtuner/v1/engine/train_engine.py b/xtuner/v1/engine/train_engine.py
@@ -156,6 +156,10 @@ def build_model(self) -> BaseModel:
         with torch.device("meta"):
             model = self.model_cfg.build()
 
+        for module in model.modules():
+            if isinstance(module, BaseModel):
+                module._init_load_spec()
+
         model = model.fully_shard(self.fsdp_cfg)
 
         if dist.get_rank() == 0:

diff --git a/xtuner/v1/model/compose/intern_s1/modeling_projector.py b/xtuner/v1/model/compose/intern_s1/modeling_projector.py
@@ -35,7 +35,6 @@ def __init__(self, config: InternS1ProjectorConfig):
         self.linear_2 = nn.Linear(config.text_hidden_size, config.text_hidden_size)
 
         self._hf_prefix = "model.multi_modal_projector."
-        self._init_load_spec()
 
     def forward(self, image_features: torch.Tensor) -> torch.Tensor:
         hidden_states = self.layer_norm(image_features)

diff --git a/xtuner/v1/model/compose/intern_s1/modeling_vision.py b/xtuner/v1/model/compose/intern_s1/modeling_vision.py
@@ -286,7 +286,6 @@ def __init__(self, config: InternS1VisionConfig) -> None:
         )
 
         self._hf_prefix = "model.vision_tower."
-        self._init_load_spec()
 
     @torch.no_grad()
     def init_weights(self) -> None:

diff --git a/xtuner/v1/model/compose/internvl/modeling_internvl.py b/xtuner/v1/model/compose/internvl/modeling_internvl.py
@@ -21,8 +21,6 @@ def __init__(self, config: InternVLBaseConfig):
             fn=self.language_model.to_hf_key_list,
             convertor=convert_llm_to_hf_keys),
             self.language_model)
-        self.language_model._init_load_spec()
-
         self.img_context_token_id = config.image_token_id
         self.select_layer = config.vision_feature_layer
         self.downsample_ratio = config.downsample_ratio

diff --git a/xtuner/v1/model/compose/internvl/modeling_projector.py b/xtuner/v1/model/compose/internvl/modeling_projector.py
@@ -19,4 +19,3 @@ def __init__(self, config: InternVLProjectorConfig):
         self.linear_2 = nn.Linear(config.text_hidden_size, config.text_hidden_size)
 
         self._hf_prefix = "multi_modal_projector."
-        self._init_load_spec()
diff --git a/xtuner/v1/model/compose/internvl/modeling_vision.py b/xtuner/v1/model/compose/internvl/modeling_vision.py
@@ -40,4 +40,3 @@ def __init__(self, config: InternVLVisionConfig) -> None:
         self.encoder = InternVLVisionEncoder(config)
 
         self._hf_prefix = "vision_tower."
-        self._init_load_spec()
diff --git a/xtuner/v1/model/compose/qwen3_vl/modeling_projector.py b/xtuner/v1/model/compose/qwen3_vl/modeling_projector.py
@@ -67,7 +67,6 @@ def __init__(self, config: Qwen3VLProjectorConfig) -> None:
                 ]
             )
         self._hf_prefix = "model.visual."
-        self._init_load_spec()
 
     def forward(self, hidden_states: torch.Tensor, deepstack_feature_lists: list[torch.Tensor]) -> tuple[torch.Tensor, list[torch.Tensor]]:
         hidden_states = self.merger(hidden_states)

diff --git a/xtuner/v1/model/compose/qwen3_vl/modeling_vision.py b/xtuner/v1/model/compose/qwen3_vl/modeling_vision.py
@@ -252,7 +252,6 @@ def __init__(self, config: Qwen3VLVisionConfig) -> None:
         self.deepstack_visual_indexes = config.deepstack_visual_indexes
 
         self._hf_prefix = "model.visual."
-        self._init_load_spec()
 
     @torch.no_grad()
     def init_weights(self):

diff --git a/xtuner/v1/model/dense/dense.py b/xtuner/v1/model/dense/dense.py
@@ -68,9 +68,7 @@ def __init__(self, config: TransformerConfig):
         if config.tie_word_embeddings:
             self.lm_head.weight = self.embed_tokens.weight
 
-        # TODO(@yehaochen): 把这两行移除 _maybe_compile_layers 要把 compile 相关的 setting 放到 fsdp_config 之外
-        # _init_load_spec 放到 post init 里
-        self._init_load_spec()
+        # TODO(@yehaochen): 把这行移除 _maybe_compile_layers 要把 compile 相关的 setting 放到 fsdp_config 之外
         self._maybe_enable_compile(self.compile_cfg)
 
     def forward(

diff --git a/xtuner/v1/model/moe/moe.py b/xtuner/v1/model/moe/moe.py
@@ -194,9 +194,7 @@ def __init__(self, config: MoEConfig):
 
         self.fp32_layers = [self.rotary_emb]
 
-        # TODO(@yehaochen): 把这两行移除 _maybe_compile_layers 要把 compile 相关的 setting 放到 fsdp_config 之外
-        # _init_load_spec 放到 post init 里
-        self._init_load_spec()
+        # TODO(@yehaochen): 把这行移除 _maybe_compile_layers 要把 compile 相关的 setting 放到 fsdp_config 之外
         self._maybe_enable_compile(self.compile_cfg)
 
         self.offload_stream = torch.cuda.Stream()
Original file line number	Diff line number	Diff line change
Expand Up		@@ -19,4 +19,3 @@ def __init__(self, config: InternVLProjectorConfig):
		self.linear_2 = nn.Linear(config.text_hidden_size, config.text_hidden_size)

		self._hf_prefix = "multi_modal_projector."
		self._init_load_spec()
Original file line number	Diff line number	Diff line change
Expand Up		@@ -40,4 +40,3 @@ def __init__(self, config: InternVLVisionConfig) -> None:
		self.encoder = InternVLVisionEncoder(config)

		self._hf_prefix = "vision_tower."
		self._init_load_spec()