Расстановка ударений: RuCode 2023

Описание решения:

1. Создание Target для тренировочных данных:

Создаем последовательность из 0 и 1 длиной в 40 символов. 1 стоит на месте гласной буквы, на которую падает ударение.

2. Лемматизация:

Производим лемматизацию тренировочных данных для приведения слов к их начальной форме.

3. Токенизация:

Токенизируем слова, преобразуя их в последовательности чисел.

4. Создание датасета:

Создаем датасет, в который входят:

Слово (без ударения)
Лемма слова Для тренировочного набора данных также добавляем target.

5. Инициализация и обучение модели:

Структура модели StressModel:

StressModel(
    (lstm_layer_1): Sequential(
              (0): Embedding(658, 70)
              (1): LSTM(70, 110, num_layers=2, batch_first=True, bidirectional=True)
    ),
    (lstm_layer_2): Sequential(
              (0): Embedding(658, 70)
              (1): LSTM(70, 110, num_layers=2, batch_first=True, bidirectional=True)
    ),
    (fc): Linear(in_features=440, out_features=1, bias=True),
    (dropout): Dropout(p=0.05, inplace=False)
)

6. Количество параметров:
Всего параметров в модели: 997201

Качество на наборах данных:
    Train: 99.4%
    Validation: 97.84%
    Public Test: 97.79%
    Private Test: 97.85%
Заключение:
Наши эксперименты показали высокую эффективность предложенного подхода.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
Readme.md		Readme.md
best_model(70-110).pth		best_model(70-110).pth
predict.ipynb		predict.ipynb
train.ipynb		train.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Расстановка ударений: RuCode 2023

Описание решения:

1. Создание Target для тренировочных данных:

2. Лемматизация:

3. Токенизация:

4. Создание датасета:

5. Инициализация и обучение модели:

About

Releases

Packages

Languages

danzzzlll/rucode-2023

Folders and files

Latest commit

History

Repository files navigation

Расстановка ударений: RuCode 2023

Описание решения:

1. Создание Target для тренировочных данных:

2. Лемматизация:

3. Токенизация:

4. Создание датасета:

5. Инициализация и обучение модели:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages