划重点 01华人学者Tianhao Wu及其团队提出了一种名为思考偏好优化(Thought Preference Optimization)的方法,使模型能根据任务复杂度进行不同时间的思考。 02该方法将思维链式提示/推理融入训练中,通过迭代优化提升思考质量,无需额外人工标注数据。 03实...

社交账号快速登录

微信扫一扫关注
如已关注,请回复“登录”二字获取验证码