首页
版块
搜索
注册
登录
RLFromScratch
宝藏资源
收藏
回帖
github.com
新手上路
3小时前
主楼
[资源名称]
RLFromScratch
[资源来源]
github.com
[资源介绍]
RLFromScratch 一款帮助AI开发工程师学习偏好学习算法的开源项目,用纯PyTorch从零实现GRPO和DPO算法。展示完整训练细节,提供可复现的实验结果,支持多GPU分布式及单GPU训练,包含Llama-3.2-1B训练案例和数据集。
[资源合集]
开源软件宝典!总有一款软件值得你收藏使用!
回复
点赞
举报
😀
😊
😵💫
😡
🤝
🙏
👍
👎
❤️
回复