Собирать статистику сказанных слов для каждой части аудиосообщения

После того, как аудиосообщение было разрезано на части, нужно собирать статистику сказанных слов для каждой части для дальнейшего анализа.