Contents Menu Expand Light mode Dark mode Auto light/dark, in light mode Auto light/dark, in dark mode Skip to content
MaxEnt-GRPO · Developer Docs
MaxEnt-GRPO · Developer Docs

Getting Started

  • Overview
  • Canonical Runtime
  • Quickstart
  • What Is Archived
  • Quick Links

Guides

  • Method Identity
  • Training Architecture
  • OAT Upstream DR.GRPO
  • Training
  • Runtime Setup
  • Evaluation
  • CLI Usage
  • Recipes

Reference

  • API Reference
    • maxent_grpo
    • maxent_grpo.grpo
    • maxent_grpo.config
      • maxent_grpo.config.dataset
      • maxent_grpo.config.grpo
      • maxent_grpo.config.recipes
    • maxent_grpo.cli
      • maxent_grpo.cli.config_validation
      • maxent_grpo.cli.hydra_cli
    • maxent_grpo.core
      • maxent_grpo.core.data
      • maxent_grpo.core.evaluation
      • maxent_grpo.core.hub
      • maxent_grpo.core.model
    • maxent_grpo.rewards
      • maxent_grpo.rewards.basic
      • maxent_grpo.rewards.maxent
    • maxent_grpo.training
      • maxent_grpo.training.baseline
      • maxent_grpo.training.cli
        • maxent_grpo.training.cli.trl
      • maxent_grpo.training.controller_objective
      • maxent_grpo.training.controller_optimizer
      • maxent_grpo.training.data
      • maxent_grpo.training.eval
      • maxent_grpo.training.generation
        • maxent_grpo.training.generation.common
        • maxent_grpo.training.generation.errors
        • maxent_grpo.training.generation.helpers
        • maxent_grpo.training.generation.vllm
        • maxent_grpo.training.generation.vllm_distributed
        • maxent_grpo.training.generation.vllm_helper
        • maxent_grpo.training.generation.vllm_requests
        • maxent_grpo.training.generation.vllm_state
        • maxent_grpo.training.generation.vllm_utils
        • maxent_grpo.training.generation.vllm_weight_sync
        • maxent_grpo.training.generation.vocab_guard
      • maxent_grpo.training.metrics
      • maxent_grpo.training.optim
      • maxent_grpo.training.patches
        • maxent_grpo.training.patches.vllm
      • maxent_grpo.training.pipeline
      • maxent_grpo.training.rewards
      • maxent_grpo.training.rollout
        • maxent_grpo.training.rollout.context
        • maxent_grpo.training.rollout.distributed
        • maxent_grpo.training.rollout.generator
        • maxent_grpo.training.rollout.helpers
        • maxent_grpo.training.rollout.local
        • maxent_grpo.training.rollout.vllm_adapter
        • maxent_grpo.training.rollout.vllm_colocate
      • maxent_grpo.training.run_helpers
      • maxent_grpo.training.runtime
        • maxent_grpo.training.runtime.config
        • maxent_grpo.training.runtime.deepspeed
        • maxent_grpo.training.runtime.deps
        • maxent_grpo.training.runtime.logging
        • maxent_grpo.training.runtime.ops
          • maxent_grpo.training.runtime.ops.vllm_startup
        • maxent_grpo.training.runtime.prompts
        • maxent_grpo.training.runtime.setup
      • maxent_grpo.training.scoring
      • maxent_grpo.training.scoring_batching
      • maxent_grpo.training.scoring_common
      • maxent_grpo.training.scoring_logprob
      • maxent_grpo.training.scoring_reference
      • maxent_grpo.training.seed_paper_eval_callback
      • maxent_grpo.training.state
      • maxent_grpo.training.telemetry
        • maxent_grpo.training.telemetry.trl_logging
        • maxent_grpo.training.telemetry.wandb
      • maxent_grpo.training.trainer_hooks
      • maxent_grpo.training.trl_trainer
      • maxent_grpo.training.types
        • maxent_grpo.training.types.logging
        • maxent_grpo.training.types.rewards
        • maxent_grpo.training.types.runtime
      • maxent_grpo.training.weighting
        • maxent_grpo.training.weighting.logic
        • maxent_grpo.training.weighting.types
      • maxent_grpo.training.zero_utils
    • maxent_grpo.training.generation
      • maxent_grpo.training.generation.common
      • maxent_grpo.training.generation.errors
      • maxent_grpo.training.generation.helpers
      • maxent_grpo.training.generation.vllm
      • maxent_grpo.training.generation.vllm_distributed
      • maxent_grpo.training.generation.vllm_helper
      • maxent_grpo.training.generation.vllm_requests
      • maxent_grpo.training.generation.vllm_state
      • maxent_grpo.training.generation.vllm_utils
      • maxent_grpo.training.generation.vllm_weight_sync
      • maxent_grpo.training.generation.vocab_guard
    • maxent_grpo.training.patches
      • maxent_grpo.training.patches.vllm
    • maxent_grpo.training.runtime.ops
      • maxent_grpo.training.runtime.ops.vllm_startup
    • maxent_grpo.training.telemetry
      • maxent_grpo.training.telemetry.trl_logging
      • maxent_grpo.training.telemetry.wandb
    • maxent_grpo.utils
      • maxent_grpo.utils.deps_guard
      • maxent_grpo.utils.imports
Back to top
Copyright © 2026, Hugging Face + Liv d'Aliberti
Made with Sphinx and @pradyunsg's Furo