Index

A | B | C | D | E | F | G | H | I | K | L | M | N | O | P | Q | R | S | T | U | V | W | Z

A

B

C

D

E

F

G

H

I

K

L

M

main() (in module maxent_grpo)
- (in module maxent_grpo.grpo)
- (in module maxent_grpo.training.runtime.ops.vllm_startup)
make_backprop_fn() (maxent_grpo.training.controller_optimizer.ControllerMetaManager method)
mask (maxent_grpo.training.scoring.CompletionTensors attribute)
- (maxent_grpo.training.scoring_batching.CompletionTensors attribute)
max_attempts (maxent_grpo.training.generation.errors.ServiceErrorPayload attribute)
max_completion_len (maxent_grpo.config.grpo.GRPOScriptArguments attribute)
- (maxent_grpo.training.rollout.context.GenerationContext attribute)
- (maxent_grpo.training.rollout.generator.GenerationContext attribute)
- (maxent_grpo.training.rollout.helpers.GenerationContext attribute)
- (maxent_grpo.training.runtime.config.GenerationSamplingConfig attribute)
- (maxent_grpo.training.runtime.GenerationSamplingConfig attribute)
- (maxent_grpo.training.runtime.setup.GenerationSamplingConfig attribute)
max_grad_norm (maxent_grpo.training.types.runtime.OptimizationSchedule attribute)
max_length (maxent_grpo.training.types.rewards.LengthStats attribute)
max_prompt_len (maxent_grpo.training.rollout.context.GenerationContext attribute)
- (maxent_grpo.training.rollout.generator.GenerationContext attribute)
- (maxent_grpo.training.rollout.helpers.GenerationContext attribute)
- (maxent_grpo.training.runtime.config.GenerationSamplingConfig attribute)
- (maxent_grpo.training.runtime.GenerationSamplingConfig attribute)
- (maxent_grpo.training.runtime.setup.GenerationSamplingConfig attribute)
- (maxent_grpo.training.types.rewards.ScoreBatch attribute)
max_retries (maxent_grpo.training.runtime.config.VLLMClientConfig attribute)
max_terminated (maxent_grpo.training.types.rewards.LengthStats attribute)
maxent (maxent_grpo.cli.hydra_cli.HydraRootConfig attribute)
maxent_allow_empty_weight_fallback (maxent_grpo.config.grpo.GRPOConfig attribute)
maxent_allow_stale_reference_logprobs (maxent_grpo.config.grpo.GRPOConfig attribute)
maxent_alpha (maxent_grpo.config.grpo.GRPOConfig attribute)
maxent_alpha_disable_outside_trust_zone (maxent_grpo.config.grpo.GRPOConfig attribute)
maxent_alpha_kl_gain (maxent_grpo.config.grpo.GRPOConfig attribute)
maxent_alpha_kl_max_multiplier (maxent_grpo.config.grpo.GRPOConfig attribute)
maxent_alpha_kl_min_multiplier (maxent_grpo.config.grpo.GRPOConfig attribute)
maxent_alpha_kl_threshold (maxent_grpo.config.grpo.GRPOConfig attribute)
maxent_alpha_lower_on_high_kl (maxent_grpo.config.grpo.GRPOConfig attribute)
maxent_alpha_raise_on_low_kl (maxent_grpo.config.grpo.GRPOConfig attribute)
maxent_beta_controller_enabled (maxent_grpo.config.grpo.GRPOConfig attribute)
maxent_clip_adv_baseline (maxent_grpo.config.grpo.GRPOConfig attribute)
maxent_clip_objective_coef (maxent_grpo.config.grpo.GRPOConfig attribute)
maxent_clip_range (maxent_grpo.config.grpo.GRPOConfig attribute)
maxent_grpo
- module
maxent_grpo.cli
- module
maxent_grpo.cli.config_validation
- module
maxent_grpo.cli.hydra_cli
- module
maxent_grpo.config
- module
maxent_grpo.config.dataset
- module
maxent_grpo.config.grpo
- module
maxent_grpo.config.recipes
- module
maxent_grpo.core
- module
maxent_grpo.core.data
- module
maxent_grpo.core.evaluation
- module
maxent_grpo.core.hub
- module
maxent_grpo.core.model
- module
maxent_grpo.grpo
- module
maxent_grpo.rewards
- module
maxent_grpo.rewards.basic
- module
maxent_grpo.rewards.maxent
- module
maxent_grpo.training
- module
maxent_grpo.training.baseline
- module
maxent_grpo.training.cli
- module
maxent_grpo.training.cli.trl
- module
maxent_grpo.training.controller_objective
- module
maxent_grpo.training.controller_optimizer
- module
maxent_grpo.training.data
- module
maxent_grpo.training.eval
- module
maxent_grpo.training.generation
- module
maxent_grpo.training.generation.common
- module
maxent_grpo.training.generation.errors
- module
maxent_grpo.training.generation.helpers
- module
maxent_grpo.training.generation.vllm
- module
maxent_grpo.training.generation.vllm_distributed
- module
maxent_grpo.training.generation.vllm_helper
- module
maxent_grpo.training.generation.vllm_requests
- module
maxent_grpo.training.generation.vllm_state
- module
maxent_grpo.training.generation.vllm_utils
- module
maxent_grpo.training.generation.vllm_weight_sync
- module
maxent_grpo.training.generation.vocab_guard
- module
maxent_grpo.training.metrics
- module
maxent_grpo.training.optim
- module
maxent_grpo.training.patches
- module
maxent_grpo.training.patches.vllm
- module
maxent_grpo.training.pipeline
- module
maxent_grpo.training.rewards
- module
maxent_grpo.training.rollout
- module
maxent_grpo.training.rollout.context
- module
maxent_grpo.training.rollout.distributed
- module
maxent_grpo.training.rollout.generator
- module
maxent_grpo.training.rollout.helpers
- module
maxent_grpo.training.rollout.local
- module
maxent_grpo.training.rollout.vllm_adapter
- module
maxent_grpo.training.rollout.vllm_colocate
- module
maxent_grpo.training.run_helpers
- module
maxent_grpo.training.runtime
- module
maxent_grpo.training.runtime.config
- module
maxent_grpo.training.runtime.deepspeed
- module
maxent_grpo.training.runtime.deps
- module
maxent_grpo.training.runtime.logging
- module
maxent_grpo.training.runtime.ops
- module
maxent_grpo.training.runtime.ops.vllm_startup
- module
maxent_grpo.training.runtime.prompts
- module
maxent_grpo.training.runtime.setup
- module
maxent_grpo.training.scoring
- module
maxent_grpo.training.scoring_batching
- module
maxent_grpo.training.scoring_common
- module
maxent_grpo.training.scoring_logprob
- module
maxent_grpo.training.scoring_reference
- module
maxent_grpo.training.seed_paper_eval_callback
- module
maxent_grpo.training.state
- module
maxent_grpo.training.telemetry
- module
maxent_grpo.training.telemetry.trl_logging
- module
maxent_grpo.training.telemetry.wandb
- module
maxent_grpo.training.trainer_hooks
- module
maxent_grpo.training.trl_trainer
- module
maxent_grpo.training.types
- module
maxent_grpo.training.types.logging
- module