告别纯奖励试错,二次尝试+反思蒸馏,复杂任务提升81%

AI资讯
15 次阅读
告别纯奖励试错,二次尝试+反思蒸馏,复杂任务提升81%

告别纯奖励试错,二次尝试+反思蒸馏,复杂任务提升81%