投递方式
招聘要求
招聘要求说明
对(多模态)大模型后训练以及强化学习有浓厚兴趣和较强的自我驱动力,能够主动分析解决问题; 熟悉主流强化学习算法以及训练框架(如verl,openRLHF),具有较强的编程能力; 设计、实现、优化强化学习方法,包括但不限于奖励迭代、策略梯度、模型预测控制等算法; 具备较强的团队协作能力和沟通能力,有较强的学习能力和业务分析及问题解决能力。
岗位信息
共 1 类薪酬福利
项目经验
参与领先业界项目,在快速发展的领域中积累经验,成为agentic RL技术专家
团队熏陶
收获业界一流团队熏陶指导
资源空间
充裕的计算资源与广阔的自我探索空间
面试题目
暂无面试题
