Skip to content

Latest commit

 

History

History
64 lines (46 loc) · 2.41 KB

File metadata and controls

64 lines (46 loc) · 2.41 KB

Аудиосопровождение происходящего на экране для людей с нарушением зрения

Репозиторий серверной части сервиса для тифлокомментирования

Другие части:

О проекте

Сервис решает ряд задач, необходимых для обработки фильмов для людей, имеющих проблемы со зрением:

  • Распознаёт речь в сценах и возвращает таймкоды, для того, чтобы между речью можно было всавить аудиодискрипцию
  • Разделяет сцены на кадры для создания описания происходящего в кадре
  • Сбор аудиодискрипции из описания кадров

Стек

  • Python
  • Flask
  • Transformers
  • ChatGPT
  • SpeechRecognition
  • Nginx
  • MoviePy
  • nlpconnect/vit-gpt2-image-captioning

Использование

Необходимо вставить собственный API-Key от OpenAI в файл config.json Сервис будет доступен на 91.185.84.113:5000/audio_description, где в тело запроса необходимо передать имя фильма, Н-р

{
    "video_name": "breaking_gum.mp4"
}

p.s. Из доступных есть только видео: breaking_gum.mp4 (предобработанное) и video.mp4 (без предобработки)

Вернёт аудиодескрипцию в формате:

{
    "scene": [
            {
            "start": int,
            "end": int,
            "comment": str
        }, ...
    ]
}

PS

Внутри репозитория отсутствует модель распознавания image, так как сама модель очень много весит. Она будет скачиваться с ресурса huggingface.co. На сервере модель установлена локально и каждый раз не скачивается, а берётся из файловой системы.