尝试本地部署大模型

发表于2026-01-18|更新于2026-04-30|实践记录

|浏览量:

今天试了一下用 Ollama 在本地跑大模型。

安装

官网下载安装包，一条命令就装好了：

[1m[31mERROR:(B[m This script is intended to run on Linux and macOS only.

跑模型

我服务器配置低，选了个小模型 qwen2.5:1.5b：

第一次运行会自动下载模型，1.5b 的模型大概 1GB 左右。

效果

跑起来还行，就是有点慢。问了一些简单的问题，回答质量还可以，比预期好。

不过问复杂一点的问题就开始胡说八道了，毕竟是 1.5b 的小模型，不能要求太高。

遇到的问题

内存不够用的时候会卡死，得把其他服务停掉。看来以后得升级服务器了。

下一步

想试试微调，但感觉硬件不太够。先了解一下原理吧。

文章作者: PFZ7Z7

文章链接: https://pfz7z7.cn/2026/01/18/%E5%B0%9D%E8%AF%95%E6%9C%AC%E5%9C%B0%E9%83%A8%E7%BD%B2%E5%A4%A7%E6%A8%A1%E5%9E%8B/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 PFZ7Z7 的学习笔记！

相关推荐

大语言模型入门指南

什么是大语言模型？大语言模型（Large Language Model，LLM）是一种基于深度学习的自然语言处理模型，能够理解和生成人类语言。发展历程时间模型特点 2017 Transformer 开创性架构 2018 BERT 双向编码 2018 GPT-1 自回归生成 2020 GPT-3 1750亿参数 2022 ChatGPT 对话能力 2023 GPT-4 多模态能力核心概念1. Token（词元）文本被切分成最小的处理单元，例如： 2. Embedding（嵌入）将 Token 转换为向量表示，捕捉语义信息。 3. Attention（注意力机制）让模型关注输入的重要部分： 4. 预训练与微调预训练：在大规模语料上学习语言知识微调：在特定任务上优化模型如何使用 LLM？API 调用本地部署 Ollama LM Studio vLLM 学习建议先理解 Transformer 架构阅读经典论文（Attention is All You Need）实践：调用 API、微调模型关注前沿进展推荐资源论文：Att...

学习LLM-Wiki方法论

最近了解到一个叫 LLM Wiki 的概念，据说是 Andrej Karpathy 提出来的。什么是 LLM Wiki？简单说就是用 LLM 帮你构建个人知识库。传统的做法是：每次查资料都从头开始，问 AI 问题，得到答案，然后忘掉。 LLM Wiki 的做法是：把学到的知识存起来，下次遇到相关问题可以直接用，而且知识之间会自动关联。核心思想1. 知识积累不是每次都从零开始，而是把知识沉淀下来。今天学了一个概念，记录下来，明天遇到相关的问题，可以直接引用。 2. 自动关联LLM 会自动发现知识点之间的联系。比如你记录了”Transformer”和”注意力机制”，它会帮你建立这两个概念之间的链接。 3. 持续更新知识库不是静态的，可以不断补充和修正。我的理解感觉这个思路挺好的。以前学东西总是学了忘，忘了又学。如果能有个系统帮我把知识整理好，确实能提高效率。不过具体怎么实现还没研究透，GitHub 上有一些开源项目，比如 llm-wiki-skill，可以配合 Claude Code 使用。下一步准备试试用这个方法来整理我的学习笔记，看看效果如何。参考： llm-w...

Token到底是什么

看了 llm-wiki 关于 Token 的解释，终于理解了。 Token 不是字之前一直以为 Token 就是字或者词，其实不是。Token 是模型处理文本的最小单位，可能是：一个完整的词一个字一个词的一部分甚至是一个空格比如 “hello” 可能被分成 [“hel”, “lo”] 两个 Token。为什么这样分？因为词太多了，不可能每个词都给一个编号。把词拆成更小的单位，可以：减少词表大小处理没见过的词（新词可以用已有的 Token 组合）中文的情况中文的 Tokenization 比英文复杂。有的模型按字切分，有的按词切分，还有的混合。试了一下 OpenAI 的 Token 计算器，发现中文的 Token 数量比想象的多。一个汉字可能要 2-3 个 Token。实际影响Token 数量影响： API 调用费用（按 Token 计费）模型的上下文长度限制处理速度所以写 Prompt 的时候，简洁一点能省钱。