新手上路 3小时前
主楼
[资源名称]
nano-aha-moment
[资源来源]
github.com
[资源介绍]
nano-aha-moment 一款用于LLM强化学习的高效训练库,支持类似DeepSeek R1-zero风格的全参数微调,仅需单个80G GPU和3B基础模型,无需额外RL库且训练过程不到10小时。
[资源合集]
😀 😊 😵‍💫 😡 🤝 🙏 👍 👎 ❤️