intel核显安装大语言模型

2025-08-12

大模型

字数统计: 580 | 阅读时长≈ 2 分钟

本文提供在 Windows 系统上配置 Intel GPU 运行环境、安装大语言模型加速库 ipex-llam 的完整指南，并详解通过 Ollama 平台部署与管理本地 LLM 的流程。

环境搭建

1、更新显卡驱动

ipex-llm 是一个将大语言模型高效地运行于 Intel GPU 、NPU 和 CPU 上的大模型 XPU 加速库。

ipex-llm 需要显卡驱动程序版本不低于 31.0.101.5122 。可以从 Intel 官方下载页面下载并安装最新的 GPU 驱动程序，更新后需要重启以完成安装

1755011631987

2、安装 Miniforge

Miniforge 是一个 Python 环境和包管理工具，它提供了一个轻量级、高效的 Conda 发行版，适合那些希望避免 Anaconda 大型包集合或者对系统资源有限制的用户。通过使用Miniforge，用户可以享受到Conda的便利，同时不必担心额外的负担

下载安装好后，添加环境变量 Miniforge安装路径\Scripts\

3、安装 ipex_llm

1
2
3

conda create -n ipex_ollama python=3.11 #创建一个 ipex_ollama 环境
conda activate ipex_ollama # 激活 ipex_ollama 环境
pip install --pre --upgrade ipex-llm[cpp] # 安装 ipex-llm

4、安装 ollama（需要以管理员运行）

mkdir ipex_ollama
cd ipex_ollama
conda activate ipex_ollama
init-ollama.bat # 初始化 ollama

1753974707357

5、运行 ollama（需要先激活 ipex_ollama 环境）

@echo off
set OLLAMA_NUM_GPU=999    # 强制 Ollama 使用所有可用 GPU 核心
set no_proxy=localhost,127.0.0.1    # 绕过代理直连本地服务
set ZES_ENABLE_SYSMAN=1    # 启用 Intel GPU 系统管理接口
set SYCL_CACHE_PERSISTENT=1    # 启用 GPU 内核缓存，加速重复计算
set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1    # 优化 GPU 指令队列提交
set OLLAMA_HOST=0.0.0.0    # 允许局域网内其他设备访问服务
set OLLAMA_NUM_PARALLEL=1    # 限制并行请求数为 1，避免显存溢出
start /b .\ollama.exe serve
echo Ollama service started.

1755011564996