用于预训练BERT的数据集


Vincent
发布于 2024-04-07 / 7 阅读 / 0 评论 /
用于预训练BERT的数据集 为了预训练实现的BERT模型,我们需要以理想的格式生成数据集,以便于两个预训练任务:遮蔽语言模型和下一句预测。一方面,最初的BERT模型是在两个庞大的图书语料库和英语维基百科的合集上预训练的,但它很难吸引这本书的大多数读者。另一方面,现成的预训练BERT模型可能不适合医学