之前写了篇比较全的ollama使用文档:
https://www.icnma.com/ollama-tutorial/
本篇主要是如何使用ollama直接运行huggingface上的gguf模型。
直接使用Ollama在Hugging Face上任何GGUF quant model,而无需创建新的Modelfile。
在 https://huggingface.co/settings/local-apps 启用ollama
在模型页面上,从使用此模型中选择ollama。
ollama run hf.co/{username}/{repository}
# 例如
ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF
# 加量化tag
ollama run hf.co/{username}/{repository}:{quantization}
# 例如
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Q8_0
默认情况下,将从常用模板列表中自动选择模板。将根据GGUF文件中存储的内置tokenizer.chat_template元数据进行选择。如果想自定义聊天模板,可以在存储库中创建一个名为template的新文件,必须是Go模板,而不是Jinja模板。
例如:
{{ if .System }}<|system|>
{{ .System }}<|end|>
{{ end }}{{ if .Prompt }}<|user|>
{{ .Prompt }}<|end|>
{{ end }}<|assistant|>
{{ .Response }}<|end|>
模板格式:
https://github.com/ollama/ollama/blob/main/docs/template.md
要更改采样参数,请在存储库中创建一个名为params的文件。文件必须是JSON格式.
参考:
https://github.com/ollama/ollama/blob/main/docs/modelfile.md#parameter
原创文章。转载请注明:
作者:meixi
网址: https://www.icnma.com