Sakha Language Embeddings

Набор методов для формирования корпуса Якутского языка и обучению Gensim word2vec модели

Обученные модели можно использовать для решения множества задач, т.к. векторные представления слов открывают возомжности применять классические алгоритмы ML для текста.

Некоторые примеры вы можете найти в директории scripts, также есть пример в этом репозитории

Формирование корпуса и обучение модели посредством Docker

Устанавливаем docker по инструкции https://www.docker.com/get-started;
Заходим в корневую папку репозитория;
Собираем образ в соответствии с Dockerfile следующей командой: docker build -t sakha ./;
Запускаем Docker образ: docker run -v $PWD:/project/ -it sakha, после данного шага откроется терминал внутри docker котнейнера;
Заходим в папку проекта cd project
Если нет файла с корпусом, то запускаем скрипт для формирования корпуса ./get_data.sh (! предварительно в скрипте стоит поменять значения аргументов -f -t на более актуальные, т.к. они отвечают за диапозон статей который будет парсится). Скрипт get_data.sh скачивает актуальный стейт якутской википедии и парсит некоторые онлайн издания на якутском языке
Обучаем модель запустив скрипт train.sh следующей командой: train.sh
Обученная модель будет находиться в папке vectors с дефолтным названием model.bin

План развития:

На текущий момент представлен только один вид вложения слов в векторные пространства - word2vec. Будет правильным получить реализации многих других популярных методов, например fastText и GloVe.

Необходимо также пополнять копилку проектов в рамках которых эти модели используются.

Как можно поучаствовать в проекте

Любые проблемы с которыми вы сталкиваетесь в процессе использования данного проекта можно и нужно описывать в разделе Issues, это позволит разработчикам получать обратную связь и быть в курсе проблем которые стоит исправить;
Реализация моделей новых алгоритмов embeddings;
Написание парсеров других источников контента на якутском языке позволит сформировать более полноценный корпус;
Т.к. нет явных метрик по которым можно оценить качество модели, стоит пополнять набор кейсов, по которым мы сможем понимать как влияют те или иные правки на качество модели.

Корпуса и модели

Корпуса: Wiki Файл можно получить по ссылке: https://yadi.sk/i/N6ayLe8LL5ZAZA Sakha-sire Файл можно получить по ссылке: https://yadi.sk/i/3yE8MkbBB7sekg Kyym Файл можно получить по ссылке: https://yadi.sk/i/XHRLST8Kkcw-jA Edersaas Файл можно получить по ссылке: https://yadi.sk/i/u_DIOYutB-6H9A Всё вместе Файл можно получить по ссылке: https://yadi.sk/i/rX-lMO1A3c8ldg

Модели: Обученная на самом полном корпусе. Файл можно получить по ссылке: https://yadi.sk/d/SBTVhzeZhylSOg

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
img		img
parser		parser
scripts		scripts
vectors		vectors
word2vec		word2vec
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
docker-compose.yml		docker-compose.yml
get_data.sh		get_data.sh
train.sh		train.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Sakha Language Embeddings

Формирование корпуса и обучение модели посредством Docker

План развития:

Как можно поучаствовать в проекте

Корпуса и модели

Проект существует при поддержке:

About

Releases

Packages

Contributors 3

Languages

nlp-sakha/sakha-embeddings

Folders and files

Latest commit

History

Repository files navigation

Sakha Language Embeddings

Формирование корпуса и обучение модели посредством Docker

План развития:

Как можно поучаствовать в проекте

Корпуса и модели

Проект существует при поддержке:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages