TrueTechHack/README.md at main · crabulous/TrueTechHack

Аудиосопровождение происходящего на экране для людей с нарушением зрения

Репозиторий серверной части сервиса для тифлокомментирования

Другие части:

О проекте

Сервис решает ряд задач, необходимых для обработки фильмов для людей, имеющих проблемы со зрением:

Распознаёт речь в сценах и возвращает таймкоды, для того, чтобы между речью можно было всавить аудиодискрипцию
Разделяет сцены на кадры для создания описания происходящего в кадре
Сбор аудиодискрипции из описания кадров

Стек

Python
Flask
Transformers
ChatGPT
SpeechRecognition
Nginx
MoviePy
nlpconnect/vit-gpt2-image-captioning

Использование

Необходимо вставить собственный API-Key от OpenAI в файл config.json Сервис будет доступен на 91.185.84.113:5000/audio_description, где в тело запроса необходимо передать имя фильма, Н-р

{
    "video_name": "breaking_gum.mp4"
}

p.s. Из доступных есть только видео: breaking_gum.mp4 (предобработанное) и video.mp4 (без предобработки)

Вернёт аудиодескрипцию в формате:

{
    "scene": [
            {
            "start": int,
            "end": int,
            "comment": str
        }, ...
    ]
}

PS

Внутри репозитория отсутствует модель распознавания image, так как сама модель очень много весит. Она будет скачиваться с ресурса huggingface.co. На сервере модель установлена локально и каждый раз не скачивается, а берётся из файловой системы.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Аудиосопровождение происходящего на экране для людей с нарушением зрения

Репозиторий серверной части сервиса для тифлокомментирования

Другие части:

О проекте

Стек

Использование

PS

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Аудиосопровождение происходящего на экране для людей с нарушением зрения

Репозиторий серверной части сервиса для тифлокомментирования

Другие части:

О проекте

Стек

Использование

PS