type
status
date
slug
summary
tags
category
icon
password
本地部署大模型指北
一些本地部署大模型的指引。
LLaMA
使用时请遵守LLaMA模型和FaceBook(Meta)的相关证书和要求
Chinese-LLaMA-Alpaca
On Windows CPU
1.获取LLaMA原版模型
2.获取Chinese-LLaMA-Alpaca LoRA模型
前往Chinese-LLaMA-Alpaca仓库下载模型,并按照步骤合并模型,别忘了给ymcui大佬点个Star。
请注意核对合并后模型
.pth
的SHA256值3.Windows本地部署
由于Windows终端和Windows下cmake的限制,直接采用llama.cpp可能会出现一些问题,更推荐使用josStorer/llama.cpp-unicode-windows中已经编译好的发行版进行部署。
Step1.下载发行版
Step2.量化模型
下载模型转换脚本,放到上述文件夹里。同时把
.pth
模型也放到这个文件夹中。文件夹结构应如下:
随后开始转换模型到FP16格式,运行以下终端命令,生成文件路径为
zh-models/7B/ggml-model-f16.bin
。转换过程中请保证有充足的内存,建议开启16G+的虚拟内存以保障转换顺利进行,否则可能导致系统崩溃。
如果你有32G的内存,可以尝试不用进行Q4量化,直接使用FP16格式的模型,运行效果会好一些。若你只有16G的内存,推荐进行Q4量化。
运行以下终端命令进行量化,生成量化模型文件路径为
zh-models/7B/ggml-model-q4_0.bin
。Step3.运行模型
运行
./main
二进制文件,-m
命令指定4-bit量化模型(也可加载ggml-FP16的模型)。以下是解码参数示例:以下是参数解释:
到此你已经完成了模型的部署,将来使用时都只需要执行Step3即可,除了你运行所用到的模型外,其他的模型均可删除。
- 作者:GeorgeDong32
- 链接:https://www.georgedong.tech/article/302e80d7-f5a1-4013-9b59-6d040d75efc2
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。