一、Ollama 快速入门 Ollama 是一个用于在本地运行大型语言模型的工具,下面将介绍如何在不同操作系统上安装和使用 Ollama。 官网:https://ollama.com Github:https://github.com/ollama/ollama 1. 安装 (1). mac…
Agent 应用适用场景 Agent 是大语言模型(LLM)的主要应用形态,通过大语言模型的推理能力和使用工具的能力完成复杂的任务: Agent 智能体=大模型推理能力 +工具使用能力 如果你有以下的业务场景,Agent 应用架构是…
本文探索云原生向量数据库Milvus的安装和使用,使用Langchain和港大的Instruction-XL模型做本地数据的切分和转向量,为那些无法使用OpenAIEmbeddings、不想将数据外泄到境外的项目提供了一个示例。 Milvus架构和简…
tokenize的目标是把输入的文本切分成一个个子串,便于embedding处理和后续模型的使用。本文总结了Tokenize流程、方法和特点,并使用Huggingface库和tiktoken库做了示例。 tokenizer工作流程 大致工作流程: Normali…
Langchain是什么? Langchain可以说是现阶段十分值得学习的一个AI架构,它标准的定义了我们在构建一个LLM应用开发时可能会用到的东西。比如说在之前写过的AI文章中介绍的prompt,就可以通过Langchain中的PromptTemp…
数据并行 数据并行,就是将数据集分为N份,分别装载到N个GPU节点中,每个GPU节点持有一个完整的模型副本,分别基于每个GPU中的数据去进行梯度求导。在GPU0上对每个GPU中的梯度进行累加,最后,再将GPU0聚合后的结果…
本文介绍通过微调 Meta 的 Llama 2 7B 模型对18 个不同类别的新闻文章进行分类,本教程将详细解释每个步骤,涵盖使用的所有类、函数和参数。 安装所需库 加载所需库 Bitsandbytes 配置 定义一个函数&nbs…
近期出现一些基于大模型的情感陪伴型对话机器人,主要是结合心理学知识,使用心理咨询数据训练,实现量表测量、情绪安抚、情感陪伴等功能,为老人、青少年等提供心理健康支持。本文选取了两个项目,分别用ChatGLM6B…
通过部署LLama2示例,比较不同LLM开源推理服务框架的优缺点。本文没介绍深度学习模型推理服务的传统库,如TorchServe,KServe或Triton Inference Server。 1. vLLM 它的吞吐量比HuggingFace Transformer (HF) 高 …
本文介绍如何使用 Llama 2 和 FastAPI、Redis 和 Celery 构建基于大模型对话的应用程序,将介绍这些概念以及它们如何协同工作的。 我们一直在使用 FastAPI 来构建我们的LLM应用,是一个用高性能 Web 框架,其异步功…
目前常见的文本生成解码策略对比分析,涉及到Greedy Search、Beam Search、Top-K采样、Top-p(核)抽样、对比搜索解码策略、Multinomial sampling 多项抽样、Beam-search multinomial sampling、多样化波束搜索解码
Bloom是一个开源可商用模型,它是如何一步步设计的?用了哪些数据和硬件资源?模型结构细节是怎样的?训练细节是怎样的?......
LoRA模型加速原理、peft包使用、Autocust自动混合精度、Accelerate和deepspeed加速、多GPU分布式训练等大模型加速训练和微调的方法和代码模板
Prefix-Tuning、P-tuning V1和 V2相关的原理和思路,并结合了大模型ChatGLM微调解析。
工作之余,我开发了一款留学问答机器人,服务母校马来亚大学的学弟学妹们。提高留学申请时获取关键信息的效率。
文本摘要的常见问题和解决方法概述,以及使用Hugging Face Transformers代码示例。