测试检验在错误信

samiul12 · Post by **samiul12** » Wed Jan 08, 2025 3:40 am

（很合理，因为模型学习的本身就是人类的语料库这里只是简单列举了三篇，并不全面，仅仅用于参考了解。三篇文章希望提供的角度如下：第篇举例了如何利用心理理论来构建和优化提示词，从而提升模型在特定场景的能力；第二篇论文则让模拟了人的思考过程，让其具备反思能力从而使其实现更加拟人的行为与表达；第三篇则是从提示词效果提升的角度发现，和人样，输出能力会被情感表达所影响。

（注意这些内容并非是结论性的或是可以直接推广使用，不同研究者的测评方法、标准、角度都是不同的，这些论文观点更多地是提供个思考方向，不能全然相信，还是需要结合实际情况 . 相关研究利用推理链优化提示词 () 远见与反应，念推断场景上有显著的能力提升。

策略针对的场景举例如下，小男孩将巧克力条放入绿橱柜，在小男孩不在时，女士将其转移了位置，小男孩现在回来了（这就是个错误信念场景，此时，模型要输出什么？针对这种场景过去常利用心理理论--（根据他人的心理状菲律宾电话号码态决定适当的行动来对模型进行测试，检验模型是否能做出理解推断，这篇文章更进步，目标是要求模型将理解转化为有益行为，让模型基于心理活动做出行动。

由此文章提出了个基于的推理范式，并构建了结构化的，并在错误信念场景下（如开头提到的场景验证得到了不错的效果。预见（促使模型根据观察预测未来事件；反思（模型反思哪种行动选择更能帮助人物应对潜在挑战。