一个处理、过滤和删除大规模文本数据的库。它提供了一组预构建的常用处理块和一个框架,可以轻松添加自定义功能。可以在本地或slurm集群上开箱即用。它的(相对)低内存使用率和多步骤设计使其非常适合大型工作负载,例如处理LLM的训练数据。
参考处理预训练数据:
https://huggingface.co/spaces/HuggingFaceFW/blogpost-fineweb-v1 [Read More]
DataTrove
Previous: Stirling-PDF
Next: litellm简化大模型 API 调用的工具