本地大语言模型部署及RAG知识库问答系统搭建——以windows系统为例

1.安装大语言模型部署运行工具Ollama#

访问Ollama官网「https://ollama.com/」点击屏幕中心的「Download」按钮，进入下载界面。

在下载界面中，选择对应操作系统的安装方式。以Windows为例，我们点击「Download for Windows (preview)」按钮下载Windows安装包。

由于Ollma的服务器在国外，这一步可能会比较慢。经过耐心的等待，我们可以得到大小约为663MB的「OllamaSetup.exe」文件。

双击「OllamaSetup.exe」文件运行，并单击「Install」开始安装。

安装完成后，Ollma会自动运行在系统后台中。我们在任务栏中找到Ollama图标，鼠标右击选择「Quit Ollama」按钮将其退出，进行下一步的配置。

2.配置Ollama on Windows#

Ollama默认将随Windows启动而自动启动，可以在文件资源管理器的地址栏中输入「%APPDATA%\Microsoft\Windows\Start Menu\Programs\Startup」并按下回车进入启动运行路径。在该路径中删除其中的「Ollama.lnk」快捷方式文件，即可阻止Ollama随系统启动而自动启动。也可复制该快捷方式文件至其他位置，方便在需要时快速运行Ollama。

Ollama 的默认模型存储路径为「C:\Users%username%.ollama\models」,为了防止模型文件大量占用系统盘空间，我们可以通过修改环境变量的方式修改Ollama的模型存储路径。

按下「Windows + R」快捷键打开「运行」对话框，输入「C:\Windows\system32\rundll32.exe sysdm.cpl, EditEnvironmentVariables」命令后按下「Ctrl + Shift + Enter」快捷键以管理员权限打开「环境变量」窗口。

在「环境变量」窗口中选择「新建」一个「用户变量」，变量名设置为「OLLAMA_MODELS」，变量值则为我们想要存储Ollama的模型的路径，这里以「D:\Ollama\Models」路径为例。输入好后，依次单击两个「确定」按钮逐级保存并关闭窗口。

Ollama API 的默认侦听端口为「11434」，并且只监听来自「127.0.0.1」或「localhost」的请求。如果有其他的访问需求，则需要开放跨域限制，可以使用相同的方式添加一个名为「OLLAMA_HOST」的用户变量，并将变量值设置为「0.0.0.0:」+「需要修改的端口」，我们以「0.0.0.0:11435」为例。

设置好的用户变量如下。

全部设置好后，我们按下「Windows + R」快捷键打开「运行」对话框，输入「cmd」命令后按下「确定」按钮打开「命令提示符」窗口。在「命令提示符」窗口中分别输入「echo %OLLAMA_MODELS%」、「echo %OLLAMA_HOST%」检查新配制的环境变量是否生效。

检查无误后，通过前面保存的快捷方式重新运行Ollama。打开浏览器访问「http://127.0.0.1:11435/」看到「Ollama is running」则说明Ollama配置成功。

3.通过Ollama获取并运行大语言模型#

访问Ollama的官方模型库「https://ollama.com/library」选择一个合适自己需求的模型以及合适的模型大小，保存其对应的运行指令。

这里我们以3B大小的Qwen2.5模型为例，它对应的指令为「ollama run qwen2.5:3b」。我们按照之前的方法打开「命令提示符」窗口，输入刚才得到的指令并按下回车键，将会自动开始下载模型文件，并将在下载好后自动运行模型。

看到「success」和「Send a message」字样则说明模型下载并运行成功，此时输入信息并按下回车就可以和模型进行对话了。

成功得到模型回复，说明模型已顺利运行。

4.在Docker容器中部署作为RAG知识库问答系统的MaxKB#

首先，我们参照教程「https://docker-practice.github.io/zh-cn/install/windows.html」完成Docker的安装。注意，这里并不推荐设置国内镜像加速。

安装好Docker后，按照之前的方法打开「命令提示符」窗口，输入命令「docker run -d —name=maxkb —restart=always -p 8080:8080 -v D:/MaxKB:/var/lib/postgresql/data -v D:/MaxKB/python-packages:/opt/maxkb/app/sandbox/python-packages cr2.fit2cloud.com/1panel/maxkb」将自动部署MaxKB至Docker容器中。

上述命令中「8080:8080」表明容器与物理机的端口映射，「D:/ MaxKB」与「D:/ MaxKB/python-packages」分别对应MaxKB的数据存储地址以及python包的存储地址，可以根据实际情况自行修改。出现如下字样则表明容器部署完成。