CS224N Assignments Code Solution

Model performances report

Training process seems to run into plateau, and training loss stop decreasing at 55 with perplexity around 12
Model eventually achieved BLEU of 7
More training details are in notebook
Trained model's parameters here -> parameters

Finetuning on a simple "birth place" question answering task without pretraining achieved 2.19% acc on dev, whereas a single line of code outputing "London" have achieved 5% in comparison
Pretraining on collected wiki text incorporateing information regarding famous people before finetuning had achieved 24% acc on dev. Considerable improvement.
Pretraining took about 42 mins on T4 GPU
After adapating perceiver, training speed improved by 1 sec per epoch
Model's parameters can be accessed here -> pretraining parameters
More training details can be seen in notebook

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
LSTM_translator		LSTM_translator
mini_gpt		mini_gpt
neural_dependency_parsing		neural_dependency_parsing
README.md		README.md
cs224n_assignment4_LSTM.ipynb		cs224n_assignment4_LSTM.ipynb
cs224n_assignment5.ipynb		cs224n_assignment5.ipynb