slavon_ocr

Pipeline for OCR-ing scanned handwritten research cards — 20th-century scholar's index cards with excerpts from early 17th-century Ukrainian (Ruthenian) sources. Uses Claude Code with custom /ocr skill for transcription, preserving archaic Church Slavonic orthography.

Setup

python -m venv venv
source venv/bin/activate
pip install -r requirements.txt

Usage

1. Extract pages from scanned PDFs

python pdf_to_jpeg.py scanned_pdfs/Auto-Color0002.pdf output/Auto-Color0002

2. Transcribe cards (requires Claude Code CLI)

Single card:

claude -p "/ocr @output/Auto-Color0002/001.jpeg"

Batch:

python batch_ocr.py output/Auto-Color0002
python batch_ocr.py output/Auto-Color0002 --force   # re-transcribe existing
python batch_ocr.py output/Auto-Color0002 --limit 10

3. Build HTML demo

python build_demo.py output/Auto-Color0002 -s tertiary
python build_demo.py output/Auto-Color0002 -s filename -o demo.html
python build_demo.py output/Auto-Color0002 --include-blank

Sort options: primary, secondary, tertiary, filename.

Blank/error cards are skipped by default; use --include-blank to keep them.

Output is a self-contained HTML file (images referenced via relative paths).

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
.claude/commands		.claude/commands
deploy		deploy
editor		editor
.gitignore		.gitignore
README.md		README.md
analyze_chars.py		analyze_chars.py
batch_ocr.py		batch_ocr.py
build_demo.py		build_demo.py
paper_scaffold.md		paper_scaffold.md
pdf_to_jpeg.py		pdf_to_jpeg.py
requirements.txt		requirements.txt
skill.md		skill.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

slavon_ocr

Setup

Usage

1. Extract pages from scanned PDFs

2. Transcribe cards (requires Claude Code CLI)

3. Build HTML demo

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

slavon_ocr

Setup

Usage

1. Extract pages from scanned PDFs

2. Transcribe cards (requires Claude Code CLI)

3. Build HTML demo

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages