Bug fix for dropping episodes in the GRPO

JenniferWang · facebook-github-bot · commit 8546ee457796 · 2025-11-20T09:38:51.000-08:00
Summary: ## Bug Description: meta-pytorch#580 had incorrect indentation cuasing the input_ids, episodes varibles to be deleted inside the episodes building loop, causing program to hang. Next diff shall make background thread crashes to be surfaced to the main thread so that we know what thread crashed for what reason. Reviewed By: daniellepintz Differential Revision: D87554570
diff --git a/apps/grpo/main.py b/apps/grpo/main.py
@@ -424,23 +424,23 @@ async def continuous_rollouts():
                 input_ids[i, :max_req_tokens] = episode.request_tensor
                 input_ids[i, max_req_tokens:] = episode.response_tensor
 
-                # drop episodes if
-                # 1> reward std-dev is very small (including all 0s and all 1s)
-                # 2> response is potentially truncated (response_len >= max_res_tokens)
-                rewards = [e.reward for e in episodes]
-                rewards_std = torch.std(torch.tensor(rewards))
-                max_response_len = max(
-                    e.completion.token_ids.shape[0] for e in episodes
-                )
-                drop = rewards_std < 1e-3 or max_response_len >= max_res_tokens
-                record_metric(
-                    "main/continuous_rollouts/dropped_episodes",
-                    1 if drop else 0,
-                    Reduce.SUM,
-                )
-                if drop:
-                    del input_ids, episodes
-                    continue
+            # drop episodes if
+            # 1> reward std-dev is very small (including all 0s and all 1s)
+            # 2> response is potentially truncated (response_len >= max_res_tokens)
+            rewards = [e.reward for e in episodes]
+            rewards_std = torch.std(torch.tensor(rewards))
+            max_response_len = max(
+                e.completion.token_ids.shape[0] for e in episodes
+            )
+            drop = rewards_std < 1e-3 or max_response_len >= max_res_tokens
+            record_metric(
+                "main/continuous_rollouts/dropped_episodes",
+                1 if drop else 0,
+                Reduce.SUM,
+            )
+            if drop:
+                del input_ids, episodes
+                continue
 
             t.step("reward_evaluation")