RPA 自动化机器人 Robot Framework
Robot Framework 是一个通用的开源自动化框架,用于验收测试、验收测试驱动开发 (ATDD) 和机器人流程自动化 (RPA)。它具有简单的纯文本语法,并且可以使用通用和自定义库轻松扩展。
安装起来也简单。只要你的机器上装了Python和pip,直接在命令行里输入以下命令即可:
```
pip install robotframework
```
操作手册:
https://robotframework.org/robotframework/latest/RobotFrameworkUserGuide.html
llama-agent 让每个 agent 都是一个独立运行的微服务。
用户可以自由定制它们的功能和交互方式,还可以灵活部署、监控和扩展。无需再为分布式架构烦恼,只需专注于你的应用逻辑。
AI实时生成视频新技术
金字塔注意力广播技术为实时视频生成带来了新的突破,无需训练即可大幅提升生成速度,为未来基于DiT的视频生成模型赋予了更强的实时能力。由新加坡国立大学和普渡大学的研究团队共同开发. [Read More]
gorilla, 用大模型调用1600个API
Gorilla 通过其APIBench功能,还提供了一个经过策划的、用于训练的庞大API集合,进一步优化了API调用过程,减少了误操作和错误生成的情况。Gorilla是一个为大型语言模型设计的API商店,支持通过自然语言查询调用API,实现语义和语法正确的API调用。它通过整合超过1600个API,首次展示了使用LLM调用API的方法,有效减少了生成假象的问题。此外,Gorilla还发布了APIBench,这是一个庞大的、经过策划且易于训练的API集合。 [Read More]
System Design Primer架构设计, 262K Star 18种语言
该项目的功能特点可以概括为全面性、实用性和互动性。它全面覆盖了从基础理论到高级架构设计的各个方面,提供了一个结构化的学习和面试准备框架。实用性体现在它结合真实世界的问题和解决方案,帮助读者不仅理解概念,还能应用于实际场景。互动性则通过 GitHub 社区的支持,鼓励用户参与讨论、贡献内容,从而形成一个活跃的学习生态系统. [Read More]
首席情报官(Wiseflow)
一个敏捷的信息挖掘工具,可以从网站、微信公众号、社交平台等各种信息源中按设定的关注点提炼讯息,自动做标签归类并上传数据库。 [Read More]
32个领域,444个数据集,774.5TB数据量
查看数据集:https://github.com/lmmlzn/Awesome-LLMs-Datasets
研究论文原文:https://arxiv.org/abs/2402.18041
[Read More]
可靠的输入与可信的输出RAG【GoMate】
GoMate是一款配置化模块化的Retrieval-Augmented Generation (RAG) 框架,旨在提供可靠的输入与可信的输出,确保用户在检索问答场景中能够获得高质量且可信赖的结果。整个框架提供一个从数据输入到最终响应输出的完整流程,涵盖了数据处理、查询理解、信息检索、结果优化、上下文理解、内容生成、后处理和评估等多个方面:
数据准备:包括数据摄入、清洗、分块、嵌入和索引。
查询理解:涉及查询的预处理、转换、路由和重写。
信息检索:通过不同的检索器(密集、多向量、稀疏、集成)进行信息检索。
结果优化:包括结果的重排、判断、压缩、细化和过滤。
上下文与提示:通过提示工程和上下文添加来增强查询理解。
生成响应:使用语言模型(如RAG链和RAFT)生成长上下文响应。
后处理:对生成的内容进行编辑、敏感词过滤和异常检测。
响应输出:格式化响应并进行问题推荐。
评估反馈:通过RagEval等工具进行效果评估。 [Read More]
文档解析助手MegaParse
MegaParse 是一个功能强大且多功能的解析器,可以轻松处理各种类型的文档。无论您是处理文本、PDF、Powerpoint 演示文稿还是 Word 文档,MegaParse 都能满足您的需求。重点是在解析过程中不要丢失信息。 [Read More]
中国独立开发者项目列表
聚合所有中国独立开发者的项目 [Read More]
精益副业:程序员如何优雅地做副业
第二版:
https://github.com/easychen/lean-side-bussiness
[Read More]
AI Agent Open-Source Framework & Tool
AutoGPT (161k stars):https://github.com/Significant-Gravitas/AutoGPT
LangChain (82.7k stars):https://github.com/langchain-ai/langchain
MetaGPT (39.1k stars):https://github.com/geekan/MetaGPT
AutoGen (24.8k stars):https://github.com/microsoft/autogen
dify (22.7k stars:https)://github.com/langgenius/dify
ChatDev (22.7k stars):https://github.com/OpenBMB/ChatDev
BabyAGI (19.2k stars):https://github.com/yoheinakajima/babyagi
SuperAGI (14.4k stars):https://github.com/TransformerOptimus/SuperAGI
FastGPT (12.5k stars):https://github.com/labring/FastGPT
CrewAI (12.1k stars):https://github.com/joaomdmoura/crewAI
XAgent (7.5k stars):https://github.com/OpenBMB/XAgent
Bisheng (5.5k stars):https://github.com/dataelement/bisheng
Voyager (5.1k stars):https://github.com/OpenBMB/XAgent
CAMEL (4.4k stars):https://github.com/camel-ai/camel
Langfuse (2.9k stars):https://github.com/langfuse/langfuse
大语言模型书籍
配套代码:LLMBox是一个全面的代码工具库,专门用于开发和实现大语言模型,其基于统一化的训练流程和全面的模型评估框架。LLMBox旨在成为训练和利用大语言模型的一站式解决方案,其内部集成了大量实用的功能,实现了训练和利用阶段高度的灵活性和效率。
https://github.com/RUCAIBox/LLMBox [Read More]
litellm简化大模型 API 调用的工具
该项目能够将各种 AI 大模型和服务的接口,统一转换成 OpenAI 的格式,简化了在不同 AI 服务/大模型切换和管理的工作。此外,它还支持设置预算、限制请求频率、管理 API Key 和配置 OpenAI 代理服务器等功能。 [Read More]
DataTrove
一个处理、过滤和删除大规模文本数据的库。它提供了一组预构建的常用处理块和一个框架,可以轻松添加自定义功能。可以在本地或slurm集群上开箱即用。它的(相对)低内存使用率和多步骤设计使其非常适合大型工作负载,例如处理LLM的训练数据。
参考处理预训练数据:
https://huggingface.co/spaces/HuggingFaceFW/blogpost-fineweb-v1 [Read More]