Sistema de Reconocimiento de DNI Español

Este sistema permite extraer información de imágenes de DNI españoles mediante técnicas avanzadas de OCR (Reconocimiento Óptico de Caracteres) combinadas con análisis inteligente.

Características

Extracción precisa de nombres, apellidos, números de documento, fechas y otros datos relevantes
Preprocesamiento de imágenes adaptado específicamente a DNI españoles
Detección por regiones específicas para mayor precisión
Análisis contextual para mejorar la precisión en campos críticos
Combinación de OCR local (Tesseract) con API de OpenAI para resultados óptimos

Requisitos

Python 3.7 o superior
Tesseract OCR 5.0 o superior (con soporte para idioma español)
Bibliotecas Python: pytesseract, opencv-python, numpy, pillow, python-dateutil, python-dotenv

Instalación

1. Instalación de Tesseract con soporte para español

Windows:

Descargar el instalador desde UB Mannheim Tesseract
Durante la instalación, seleccionar "Spanish" en la lista de idiomas adicionales
Agregar Tesseract a la variable de entorno PATH (normalmente: C:\Program Files\Tesseract-OCR)

Linux (Debian/Ubuntu):

sudo apt update
sudo apt install tesseract-ocr
sudo apt install tesseract-ocr-spa

macOS:

brew install tesseract
brew install tesseract-lang

2. Instalación de dependencias Python

pip install pytesseract pillow opencv-python python-dateutil python-dotenv

3. Configuración

Crear un archivo .env en el directorio raíz con las siguientes variables:

OPENAI_API_KEY=tu_clave_de_api_aquí

Uso

from IDAnalyzer import process_dni_image

# Procesar una imagen de DNI con OpenAI
resultado = process_dni_image("ruta/a/tu/imagen_dni.jpg", use_openai=True)
print(resultado)

# Procesar utilizando solo análisis local sin OpenAI
resultado_local = process_dni_image("ruta/a/tu/imagen_dni.jpg", use_openai=False)
print(resultado_local)

El resultado será un diccionario con los siguientes campos:

{
    "Nombre": "NOMBRE_PERSONA",
    "Apellido": "APELLIDOS_PERSONA",
    "Documento": "12345678A",
    "FechaDeNacimiento": "01/01/1990",
    "TipoDocumento": "DNI",
    "Sexo": "M",
    "Nacionalidad": "ESP",
    "FechaValidez": "01/01/2030"
}

Troubleshooting

Si Tesseract no es encontrado en PATH:

Modificar la línea en IDAnalyzer.py:

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'  # Ajustar a tu ruta

Problemas con el reconocimiento del español:

Verificar que los archivos de idioma español estén correctamente instalados:

Windows: Carpeta tessdata dentro del directorio de instalación de Tesseract
Linux: /usr/share/tesseract-ocr/4.00/tessdata/
macOS: /usr/local/share/tessdata/

El archivo spa.traineddata debe estar presente.

Optimización

Para mejorar el reconocimiento:

Utilizar imágenes de alta resolución (mínimo 300 DPI)
Asegurar iluminación uniforme sin sombras o reflejos
Capturar la imagen con el DNI completamente visible y sin inclinación

Licencia

Este proyecto es de código abierto bajo la licencia MIT.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.env.example		.env.example
.gitignore		.gitignore
IDAnalyzer.py		IDAnalyzer.py
ImageAnalyzer.py		ImageAnalyzer.py
Main.py		Main.py
README.md		README.md
requirements.txt		requirements.txt
test_dni.py		test_dni.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Sistema de Reconocimiento de DNI Español

Características

Requisitos

Instalación

1. Instalación de Tesseract con soporte para español

Windows:

Linux (Debian/Ubuntu):

macOS:

2. Instalación de dependencias Python

3. Configuración

Uso

Troubleshooting

Si Tesseract no es encontrado en PATH:

Problemas con el reconocimiento del español:

Optimización

Licencia

About

Uh oh!

Releases

Packages

Uh oh!

Languages

roberwild/ocr_id_recognition

Folders and files

Latest commit

History

Repository files navigation

Sistema de Reconocimiento de DNI Español

Características

Requisitos

Instalación

1. Instalación de Tesseract con soporte para español

Windows:

Linux (Debian/Ubuntu):

macOS:

2. Instalación de dependencias Python

3. Configuración

Uso

Troubleshooting

Si Tesseract no es encontrado en PATH:

Problemas con el reconocimiento del español:

Optimización

Licencia

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages