DataTrove

一个处理、过滤和删除大规模文本数据的库。它提供了一组预构建的常用处理块和一个框架，可以轻松添加自定义功能。可以在本地或slurm集群上开箱即用。它的（相对）低内存使用率和多步骤设计使其非常适合大型工作负载，例如处理LLM的训练数据。
参考处理预训练数据：
https://huggingface.co/spaces/HuggingFaceFW/blogpost-fineweb-v1 [Read More]