你好,请教下,论文提出的GPKD方法我看着都是在真实的双语语料上训练; 那NMT后续的回译和蒸馏阶段,这个GPKD方法仍能发挥作用吗? 若可以,是否要调整某些操作?
你好,请教下,论文提出的GPKD方法我看着都是在真实的双语语料上训练;
那NMT后续的回译和蒸馏阶段,这个GPKD方法仍能发挥作用吗?
若可以,是否要调整某些操作?