Skip to content

rollout和actor中的step的关系和区别? #452

@tingjun-cs

Description

@tingjun-cs

请问rollout和actor中的step的关系和区别?
我之前的理解是,rollout的一个step对应buffer.batch_size个task
actor的一个step对应的是buffer.train_batch_size个experience

buffer:
  batch_size: 1
  train_batch_size: 32

假如我按上面的config,用在mutistep agent react场景 grpo
我的每一个task平均生成5个experience

基于上面的配置,也就是我需要rollout执行6~7个step(生成32个左右的experiences),才能执行一次actor step。

基于这种背景,actor的step应该比rollout的step明显少才对?

但是实际发现,actor的step和rollout的step相当,甚至比rollout更多?这是为什么?我上面哪个地方理解错了吗?

跟repeat_times有关系吗?algorithm.repeat_times和explorer.max_repeat_times_per_runner我都设置的8

Image Image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions