预训练数据集相关问题咨询 #1154

WangCC-77 · 2024-10-28T07:39:38Z

作者，你好，非常感谢能开源模型，我这边想要复现，目前在预训练阶段遇到了瓶颈，麻烦作者帮忙看一下：
（1）在预训练xlm-roberta-large+retroMAE时，收集了C4、wudao和pile数据集，看到文中还使用了大量的无监督数据对密集检索进行预训练，目前关于这部分数据集有公开吗？
（2）我在网上搜到了MTP的数据集，里面有3亿条数据，由许多数据集组合得来的，但这个就和作者文中的表9有重复，这些数据是怎么处理的呢？
MTP：

table 9：

如果作者看到这个问题，麻烦作者帮忙解答一下，万分感谢~

hanhainebula · 2024-10-31T16:53:15Z

（1）这部分数据太大了，所以没有开源；目前只开源了微调部分的数据集：https://huggingface.co/datasets/Shitao/bge-m3-data/tree/main
（2）可以保留重复的部分，也可以去下重，比如去掉来自同样 source 的数据集

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

预训练数据集相关问题咨询 #1154

预训练数据集相关问题咨询 #1154

WangCC-77 commented Oct 28, 2024

hanhainebula commented Oct 31, 2024

预训练数据集相关问题咨询 #1154

预训练数据集相关问题咨询 #1154

Comments

WangCC-77 commented Oct 28, 2024

hanhainebula commented Oct 31, 2024