Skip to content

danzzzlll/rucode-2023

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Расстановка ударений: RuCode 2023

Описание решения:

1. Создание Target для тренировочных данных:

Создаем последовательность из 0 и 1 длиной в 40 символов. 1 стоит на месте гласной буквы, на которую падает ударение.

2. Лемматизация:

Производим лемматизацию тренировочных данных для приведения слов к их начальной форме.

3. Токенизация:

Токенизируем слова, преобразуя их в последовательности чисел.

4. Создание датасета:

Создаем датасет, в который входят:

  • Слово (без ударения)
  • Лемма слова Для тренировочного набора данных также добавляем target.

5. Инициализация и обучение модели:

Структура модели StressModel:

StressModel(
    (lstm_layer_1): Sequential(
              (0): Embedding(658, 70)
              (1): LSTM(70, 110, num_layers=2, batch_first=True, bidirectional=True)
    ),
    (lstm_layer_2): Sequential(
              (0): Embedding(658, 70)
              (1): LSTM(70, 110, num_layers=2, batch_first=True, bidirectional=True)
    ),
    (fc): Linear(in_features=440, out_features=1, bias=True),
    (dropout): Dropout(p=0.05, inplace=False)
)

6. Количество параметров:
Всего параметров в модели: 997201

Качество на наборах данных:
    Train: 99.4%
    Validation: 97.84%
    Public Test: 97.79%
    Private Test: 97.85%
Заключение:
Наши эксперименты показали высокую эффективность предложенного подхода.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published