Error
Looks like something went wrong!

About

A PyTorch implementation of the paper "Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits". This repository provides a flexible and modular approach to Reinforcement Learning from Human Feedback (RLHF).

Readme

Activity

5 stars

1 watching

1 fork

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 97.5%
Shell 2.5%

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Error
Looks like something went wrong!

About

Uh oh!

Releases

Packages

Uh oh!

Languages

ZinYY/Online_RLHF

ErrorLooks like something went wrong!

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Error
Looks like something went wrong!

Packages