问题描述
在使用MiMo模型进行OCR任务时(识别图片中的数字),发现模型存在严重的确认偏误(Confirmation Bias):
当模型已知文件名时,会倾向于"看到"与文件名一致的内容,而不是真正逐位识别图片中的数字。
复现步骤
- 准备一批图片,每张图片显示一个3位数,文件名为该数字
- 故意将少量图片的文件名设为错误(如060.webp实际显示607)
- 让模型批量检查图片内容是否与文件名一致
实验结果
- 模型在批量快速浏览时,会因为知道文件名而"脑补"期望的内容
- 实际上模型的OCR能力本身没有问题(能正确识别颜色、水印等细节)
- 问题在于:当文件名已知时,模型会产生确认偏误,倾向于看到与文件名一致的数字
- 在667张图片中,只有005.webp被正确识别为不一致(实际显示043),而其他5个不一致的文件(216, 252, 401, 434, 578)全部被错误地认为一致
期望行为
模型应该真正逐位识别图片中的数字,而不是因为知道文件名就产生确认偏误。即使在批量检查场景下,也应该对每张图片进行独立的OCR识别。
环境信息
- 模型版本:mimo-auto
- 任务类型:图片OCR(数字识别)
- 图片特征:彩色背景+大号3位数+半透明水印
备注
这个问题在LLM领域比较常见,属于认知偏差问题。建议在模型训练或推理层面进行改进。
问题描述
在使用MiMo模型进行OCR任务时(识别图片中的数字),发现模型存在严重的确认偏误(Confirmation Bias):
当模型已知文件名时,会倾向于"看到"与文件名一致的内容,而不是真正逐位识别图片中的数字。
复现步骤
实验结果
期望行为
模型应该真正逐位识别图片中的数字,而不是因为知道文件名就产生确认偏误。即使在批量检查场景下,也应该对每张图片进行独立的OCR识别。
环境信息
备注
这个问题在LLM领域比较常见,属于认知偏差问题。建议在模型训练或推理层面进行改进。