标签：法火

OpenAI-o1思考替代法走红！焦剑涛弟子首创思考偏好优化方案

划重点 01华人学者Tianhao Wu及其团队提出了一种名为思考偏好优化（Thought Preference Optimization）的方法，使模型能根据任务复杂度进行不同时间的思考。 02该方法将思维链式提示/推理融入训练中，通过迭代优化提升思考质量，无需额外人工标注数据。 03实...