Skip to content

OCR任务中存在确认偏误(Confirmation Bias)导致数字识别错误 #65

@zgh2000

Description

@zgh2000

问题描述

在使用MiMo模型进行OCR任务时(识别图片中的数字),发现模型存在严重的确认偏误(Confirmation Bias)

当模型已知文件名时,会倾向于"看到"与文件名一致的内容,而不是真正逐位识别图片中的数字。

复现步骤

  1. 准备一批图片,每张图片显示一个3位数,文件名为该数字
  2. 故意将少量图片的文件名设为错误(如060.webp实际显示607)
  3. 让模型批量检查图片内容是否与文件名一致

实验结果

  • 模型在批量快速浏览时,会因为知道文件名而"脑补"期望的内容
  • 实际上模型的OCR能力本身没有问题(能正确识别颜色、水印等细节)
  • 问题在于:当文件名已知时,模型会产生确认偏误,倾向于看到与文件名一致的数字
  • 在667张图片中,只有005.webp被正确识别为不一致(实际显示043),而其他5个不一致的文件(216, 252, 401, 434, 578)全部被错误地认为一致

期望行为

模型应该真正逐位识别图片中的数字,而不是因为知道文件名就产生确认偏误。即使在批量检查场景下,也应该对每张图片进行独立的OCR识别。

环境信息

  • 模型版本:mimo-auto
  • 任务类型:图片OCR(数字识别)
  • 图片特征:彩色背景+大号3位数+半透明水印

备注

这个问题在LLM领域比较常见,属于认知偏差问题。建议在模型训练或推理层面进行改进。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions