本技术涉及一种高效构建大型预训练语言模型语料库的方法与设备,属于数据处理技术领域。该方法包括将多个语料样本输入至目标大型语言模型,并输出每个样本对应的文本标量分数;进一步将这些分数用于语料样本的质量评估和筛选,以构建高质量的预训练语料库。该装置支持自动化处理和优化,提高预训练效率和模型性能。
背景技术
预训练数据质量评估是大语言模型开发领域中一个关键且具有挑战性的任务,目的在于从海量非结构化的数据中筛选出高质量的语料,以提升语言模型的预训练效果。预训练数据的质量和处理方法直接影响到语言模型在端到端任务中的表现,包括理解能力、推理能力、语言能力和学科能力等。在大语言模型的构建过程中,如何高效地评估和筛选出对于训练有益的数据,是提升模型性能的关键步骤。
因此,如何有效进行大模型预训练语料构建已经成为业界亟待解决的问题。
实现思路