20个最重要的AI概念，20分钟入门

2026-05-08

1. 神经网络（Neural Networks）
2. 迁移学习（Transfer Learning）
3. 分词（Tokenization）
4. 嵌入 / 向量化（Embeddings）
5. 注意力机制（Attention）
6. Transformer 架构
7. 大语言模型（LLM）
8. 上下文窗口（Context Window）
9. 温度参数（Temperature）
10. 幻觉（Hallucination）
11. 微调（Fine-tuning）
12. RLHF（基于人类反馈的强化学习）
13. LoRA（低秩适配）
14. 量化（Quantization）
15. 提示工程（Prompt Engineering）
16. 思维链（Chain of Thought，CoT）
17. RAG（检索增强生成）
18. 向量数据库（Vector Database）
19. AI 代理（AI Agent）
20. 扩散模型（Diffusion Models）
总结

CDN = https://fla.cdn.bosyun.com/wangjundev/20260508

如果你曾经试图学习 AI，大概有过这样的感受——”这到底在说什么？” 网上每个人都在谈论，好像这些都是常识一样。

学习 AI 确实让人感到不知所措。尤其是如果你不是直接从事 AI 相关工作，几乎像是在学习一门全新的语言。

但事实上，AI 并没有那么复杂。一旦理解了基础——特别是大语言模型（LLM）是如何工作的，现代 AI 工具是如何构建的——一切就开始说得通了。

这篇文章将用最简单的方式，拆解 20 个最重要的 AI 概念。没有复杂的术语，没有过度解释。只有清晰的说明和直观的例子——就像我希望当初有人这样跟我解释一样。

让我们开始吧 ✌️

1. 神经网络（Neural Networks）

核心来说，神经网络就是一个由多个连接层组成的系统，每层由称为神经元的小单元构成。

把它想象成一个管道。数据从输入层进入，经过多个隐藏层，最后通过输出层变成预测结果。

但内部实际发生了什么？简单理解就是逐步精炼——同样的输入被反复处理，每经过一层，模型对它的理解就更深入一层。

例如在图像模型中：

第一层检测简单的东西：边缘或纹理
中间层开始识别形状或图案
深层可以识别复杂物体

就像从 像素 → 形状 → 意义 的递进。

每个神经元之间的连接都有一个权重——你可以把权重想象成微小的”重要性分数”，决定一个神经元对另一个的影响程度。而训练神经网络，本质上就是调整这些权重直到模型给出准确结果的过程。

现代 AI 模型，特别是大语言模型，不止有几十个权重——而是数十亿个。它们协同工作，将原始输入转化为有意义的输出。

2. 迁移学习（Transfer Learning）

从头开始训练神经网络听起来很酷——直到你意识到这有多昂贵。需要海量的数据和计算资源，以及大量时间。

迁移学习彻底改变了这一点。你不再从零开始，而是拿一个已经在广泛任务上训练好的模型，针对特定任务进行适配。你是在已有的基础上构建，而不是从地基开始。

最简单的理解方式：假设你已经会骑自行车了。现在学骑摩托车是不是容易多了？因为你不需要从零开始，只是在已有技能上做调整。

迁移学习的原理也是一样。预训练模型已经学会了数据中的通用模式，所以当你针对自己的使用场景进行微调时，它学得更快，需要的努力也更少。

重要的是：这是大多数现代 AI 实际工作方式。大公司训练庞大的基础模型，然后像我们这样的开发者将其适配到特定任务上。这就是为什么你可以在不需要数十亿数据点或疯狂算力的情况下构建强大的 AI 应用。

3. 分词（Tokenization）

在模型能理解任何文本之前，它必须先将其分解为更小的片段。这个过程称为分词。

模型不是像我们那样逐字阅读句子，而是使用称为token（词元） 的小单元。这些 token 就像模型内部的”字母表”。

但 token 不总是一个完整的单词。有时候它是一个完整的词，有时候只是一个词的一部分。比如，”playing” 可能被拆分为 “play” 和 “ing”。而一个短而常见的词如 “dog” 通常会保持原样。

为什么不用完整的词？语言非常混乱且不断演变。新词不断出现，人们会犯拼写错误、混合使用语言、创造自己的变体。如果模型试图存储每个可能的词，词汇表会变得无限大。

分词通过保持一个固定大小的构建块集合来解决这个问题。模型不是记忆每个词，而是学习常见的模式和可复用的片段。即使遇到从未见过的词，它也能通过拆分成熟悉的片段来理解。

所以 AI 并不像人类那样”阅读”文本——它读取 token，然后从这些 token 中逐步构建意义。

一旦文本被分解为 token，下一步是将这些 token 转换成模型可以处理的形式。

4. 嵌入 / 向量化（Embeddings）

每个 token 被转换为一个向量——一个表示其含义的数字列表。模型不直接处理词汇，而是处理这些数值表示。

可以将其理解为一种语义地图。每个词在高维空间中都有一个位置。相似的词靠得很近，而完全不同的词则相距很远。比如，”医生”和”护士”会很接近，而”医生”和”山”则相距很远。

即使这个空间有数百或数千个维度，它仍然能捕捉有意义的关系。某些词之间的差异遵循一致的规律。比如，”演员”和”女演员”之间的关系类似于”王子”和”公主”之间的关系。

有意思的是，模型并不像我们那样理解语言。它不是通过定义或规则来思考。它通过距离和方向来理解意义——将词汇组织在一个关系变成几何问题的空间中。

5. 注意力机制（Attention）

一个词的含义并不是固定的——它取决于上下文。

以中文的”苹果”为例。在一个句子里它可能指水果，在另一个句子里可能指公司。那么模型如何确定正确的含义？

注意力（Attention） 允许每个词”查看”句子中的每一个其他词，并决定什么才是真正重要的。模型不是对所有的词一视同仁，而是学会关注最相关的那些词。

所以如果句子是“她买了苹果的股票”，模型会更加关注”股票”和”买了”这些词，从而理解这里的”苹果”是一家公司，而不是水果。

这之所以强大，是因为模型不再逐词阅读。它一次性看到整个句子，并动态决定关注点。注意力机制是真正解锁现代 AI 的关键。在此之前，模型从左到右逐步处理文本，常常遗漏远距离的关系。注意力改变了这一点——让模型看到全局，理解所有内容之间的关联。

6. Transformer 架构

之前讨论的所有内容——token、嵌入、注意力——最终汇聚到一个架构中。那就是 Transformer。

Transformer 在 2017 年的一篇论文《Attention Is All You Need》中被提出。想法简单得令人惊讶：不再逐词处理文本，而是让注意力成为核心机制，让模型一次性看到所有内容。

Transformer 通过堆叠多个注意力层和简单处理块来构建。信息经过这些层时被逐步精炼：

前几层：理解基础结构，如语法和句式
中间层：捕捉词汇和概念之间的关系
后几层：处理复杂的推理和关联

Transformer 最大的优势之一是它们处理数据的方式。旧模型必须顺序阅读文本，一次一个词，这使它们既慢又受限于上下文长度。Transformer 没有这个问题——它们并行处理所有 token，速度更快，并且可以利用 GPU 等现代硬件扩展到巨大的规模。

这就是为什么 GPT、Claude、Gemini 和 Llama 都依赖这个架构。如果从宏观来看，整个流程是这样的：

文本 → 分词为 token → token 转为向量 → Transformer 层用注意力理解关联

这个简单的流程支撑着今天你在使用的大部分 AI。

7. 大语言模型（LLM）

现在我们把所有内容串联起来，看看大多数人实际在交互的对象——大语言模型。

从高层来看，LLM 就是一个在海量文本上训练的 transformer。数据来自书籍、网站、代码等——通常是数千亿甚至数万亿个 token。

训练目标？简单得惊人：模型通过预测下一个 token 来学习。

这听起来太简单了。但当你在数万亿个例子上重复这个过程时，有趣的事情发生了。模型开始掌握语言的模式——句子如何构建、概念如何连接、推理如何流动。随着时间的推移，这看起来很像理解——虽然本质上只是在海量规模上的模式学习。

这就是为什么这些模型能做这些事情：写代码、回答问题、翻译语言、解释复杂主题——即使它们从未被明确训练过这些任务。

LLM 中的 “large”（大）指的是参数数量——模型在训练过程中学会的内部值。现代模型有数千亿个参数。训练这么大规模的模型成本不菲——需要海量计算资源，通常花费数百万美元。但结果是，你得到了一个能泛化处理广泛问题、生成惊人有用输出的系统。

所以当你使用 ChatGPT、Claude 或 Gemini 时，你实际上是在和这样一个模型交互——它之所以学会语言，只是因为重复做了一件简单的事：预测下一个内容。

8. 上下文窗口（Context Window）

每个 AI 模型都有一次性能”记住”多少内容的限制。这个限制称为上下文窗口。

上下文窗口指的是模型在单次交互中能处理的最大 token 数量——包括你写的内容和模型生成的回复。简单来说，就像模型的短期工作记忆。

早期模型，这个记忆很小。比如早期的 GPT 版本一次只能处理几千个 token。长对话很快就会丢失早期的细节，大文档必须被截断或拆分。

但情况已经大不相同了。现代模型可以处理大得多的上下文——有些能一次性处理整本书、长篇对话或大段代码。这让它们在上下文真正重要的实际任务中更加有用。

但有一个代价：更大的上下文窗口需要更多内存、更多计算，通常会导致更慢的响应。而且即使有大的上下文窗口，还有一个微妙的限制——模型不会同等对待输入的所有部分。它们更关注开头和结尾，而中间的信息有时会被忽略。这被称为“Lost in the Middle”（迷失在中间）。

了解这一点，有助于解释为什么有时模型会”忘记”你之前明确提到的事情。

9. 温度参数（Temperature）

当语言模型生成文本时，它不只是直接选择下一个词。在幕后，它会计算每个可能的 token 的概率，然后决定选哪个。

温度（Temperature） 控制着这个选择有多”严格”或多”有创意”。

低温：模型几乎总是选择最有可能的下一个 token，输出更可预测、更专注、更一致。适合写代码、总结内容等需要准确性的任务。
中温：模型开始探索其他可能性，增加输出的多样性和自然感。适合头脑风暴、生成不同变体。
高温：模型可能生成更令人惊讶或有想象力的回复，但连贯性会下降，尤其在长文本中。更像是实验性输出。

所以在实际应用中，温度就是控制模型行为的一种方式。低值让模型更精确可靠，高值让它更有创意和多样性。选择合适的平衡完全取决于你的目标。

10. 幻觉（Hallucination）

这是认真使用 AI 时最先注意到的问题之一。有时候，模型给你一个听起来完全自信的回答——但事实上是错的。

它可能自信地提到一个不存在的学术研究、推荐一个从未创建的 API、或者把一个编造的事实当作常识呈现出来。棘手的是，它听起来确实像真的。

为什么会出现这种情况？因为语言模型的核心目标不是讲真话——它是在生成最有可能的下一个文本片段。它从海量数据中学会了模式，它的工作就是继续这些模式，让输出感觉自然和连贯。但它实际上不会验证自己说的是不是正确。

所以如果一个错误陈述在统计学上看起来像是应该出现的下一个内容，模型就会自信地生成它。这就是为什么幻觉在实际应用中如此具有挑战性——你不能盲目相信输出，尤其是涉及事实、代码或重要决策时。

很多现代系统通过将模型接地（grounding） 到真实数据来减少这个问题——比如连接到可信文档，或要求引用来源。

最终，模型非常擅长听起来正确——但仍然需要人类去检查它是否真的正确。

11. 微调（Fine-tuning）

微调发生在模型已经掌握基础之后。你不需要从头训练，而是拿一个预训练模型，在更小、更专注的数据集上继续训练。

可以把它理解为专业化。通用模型可能擅长回答各种问题，但如果你希望它在特定领域表现出色，你可以用更有针对性的数据进行微调。

例如，想要一个理解法律文档的模型，你可以进一步训练它处理合同、案例摘要和法律解释。随着时间的推移，它的回复会更适合那个领域。

但这需要代价。微调通常涉及更新模型内部参数的大部分——而这些模型非常庞大。你需要足够的内存来加载整个模型以及训练所需的额外数据。对于非常大的模型，这通常意味着需要多个高端 GPU 和大量的计算资源。

所以微调虽然强大，但并不总是轻量或容易设置。它给了你控制和定制的能力，但你需要为此付出复杂性和成本的代价。

12. RLHF（基于人类反馈的强化学习）

至今为止讨论的内容解释了模型如何学习语言——但没有解释一个重要问题：为什么现代 AI 模型感觉如此有用、礼貌、像在对话？

RLHF（Reinforcement Learning from Human Feedback） 是答案。它把模型从”只是预测下一个 token”变成了与人类期望对齐的东西。

没有 RLHF，模型仍然能生成流畅的文本——但不一定有用、安全或恰当。它只是继续看起来最有可能的模式，不顾是否真的对你有帮助。

RLHF 将人类判断引入训练过程。对于给定的提示，模型生成多个可能的回复，人类进行比较——选出哪些更有帮助、更清晰或更安全。随着时间的推移，模型学会偏向人类一致选择的那类答案。

有意思的是，模型并不是直接记住那些答案——它形成了一种偏好感。它开始理解好答案是什么样的、如何正确遵循指令、何时避免有害或误导性的回复。

这就是为什么现代聊天机器人感觉和旧系统完全不同。它们不只是听起来流利——它们感觉像是真的在努力帮助你。没有 RLHF（或类似的对齐方法），模型仍然强大，但远不够可靠、安全，也更难在实际应用中使用。

13. LoRA（低秩适配）

我们刚刚讨论了微调以及它有多强大。但有一个问题——微调一个巨大的模型意味着要更新数十亿个参数，这很快变得昂贵且难以管理。

LoRA（Low-Rank Adaptation） 提供了一个更轻量的方案。它保持原始模型不变，在它之上添加小型的、可训练的组件。这些额外部分相比完整模型非常小——通常只占总参数的极小一部分。

这个思路非常巧妙。当微调一个模型时，大部分变化实际上并不需要完整的更新——它们可以用更小规模的变换来近似。LoRA 利用这一点，以紧凑的方式捕捉这些变化。

为什么这很重要？因为它让微调变得更容易获得。以前需要多个高端 GPU 的任务，现在通常可以在单台机器上完成。而且你可以存储不同的 LoRA 适配器，根据任务切换使用，而不是保存多个完整版本的模型。

简单来说，LoRA 给了你微调的好处——而没有通常伴随的高昂成本。

14. 量化（Quantization）

随着模型变得越来越大，运行它们也变得更加困难。需要更多的内存、更多的计算、更强大的硬件。

量化是一种通过更高效地存储权重来缩小模型、降低运行成本的方法。在全精度模型中，每个权重使用大量比特存储。量化减小了这种大小——有时显著地——使整个模型占用更少的内存。

思路很简单：使用更少的精度，但保留大部分有用信息。当你减小每个权重的大小时，影响累积得很快。原本需要海量内存的模型，突然变得小到可以在更易获得的硬件上运行。

令人惊讶的是，质量的下降往往比你预期的要小得多，尤其是在适度的量化级别下。这是大模型变得更实用的关键原因之一。当你在桌面 GPU 甚至笔记本电脑上运行强大模型时，通常使用的不是完整版本——而是经过量化的压缩版本，以适应现实世界的硬件限制。

简单来说，量化就是把大型 AI 模型从庞大的数据中心——带到日常机器上的技术。

15. 提示工程（Prompt Engineering）

如果你用过 AI，哪怕只是一点点，你可能已经注意到了——提问的方式很重要。

提示工程就是塑造你的输入，让模型给出更好、更有用的输出。同样的问题，用两种不同的方式问，可能得到完全不同的结果。

好的提示不在于复杂——而在于清晰。当你明确定义你想要的，模型给出你想要的东西的可能性就大得多。有时候这需要设定角色，比如要求它作为经验丰富的工程师来回答。有时候这意味着给出示例、将任务分解为步骤、或者只是明确指定格式和语气。

随着时间的推移，你会发现一个重要的道理：提示工程不仅仅是一个技巧或变通方法——它是你与模型沟通的主要方式。模糊的提示给你泛泛的输出。精心设计的提示可以给你结构清晰、准确、真正可用的结果。

16. 思维链（Chain of Thought，CoT）

有时模型给出糟糕的答案，不是因为它什么都不知道——而是因为它跳到了答案上，太快了。

思维链是一种提示方法，模型通过中间步骤逐步解决问题，而不是直接冲向最终结果。这对涉及逻辑、数学或需要多步推理的任务特别有帮助。

简单理解：如果你只要求最终答案，模型可能过于依赖模式匹配。但如果你鼓励它更仔细地逐步处理问题，它更有可能得到正确的结果。

例如，如果你让模型直接解决一个乘法问题，它有时会猜错。但如果它先把问题分解成更小的部分，再组合起来，答案就会可靠得多。

这就是为什么思维链通常被描述为给模型提供一种思考空间。不给它施加即时回复的压力，而是让它以更小的步骤处理任务。对于许多依赖推理的问题，这个微小的改变可以带来巨大的差异。

简单来说：给模型思考的空间，而不是要求它直接跳到结论。

17. RAG（检索增强生成）

还记得前面提到的幻觉问题吗？RAG 是最实用的解决方案之一。

思路很简单。模型不依赖它已经知道的内容，而是被赋予实时、相关的信息访问权。在生成回复之前，系统先从知识源中搜索有用的文档。这些文档被作为上下文传递给模型，模型利用它们生成基于事实的答案。

可以这样理解：模型不是凭记忆回答，而是被允许先查一下资料。

例如，想象你在构建一个客服助手。当有人询问定价或政策时，系统不会猜测。它首先从内部文档中拉取最新信息，然后模型用清晰自然的方式解释。

这种方法之所以强大，在于角色的分离——模型专注于理解问题和解释答案；知识库提供实际的事实。而且这有一个很大的优势：如果你的信息发生变化，不需要重新训练模型。你只需要更新文档，系统会立即开始使用新数据。

简单来说，RAG 把模型从一个凭记忆说话的系统——变成了一个可以阅读、验证、有真实上下文支撑的回复者。

18. 向量数据库（Vector Database）

如果 RAG 是关于检索正确的信息——那系统实际上如何找到它呢？答案就是向量数据库。

向量数据库不以传统方式存储文本，而是存储我们之前讨论过的数值化的语义表示（向量）。这允许系统基于语义相似度进行搜索，而不仅仅是精确的关键词匹配。

实际流程是这样的：文档先被分成较小的块，每个块被转换为向量（嵌入）。这些向量存储在数据库中。当用户提问时，该问题也被转换为向量。系统寻找与它最接近的存储向量——也就是含义上最相似的内容——并返回这些内容。

这和传统搜索完全不同。如果你使用精确关键词搜索，可能因为措辞不同而错过相关信息。但有了向量搜索，系统仍然能找到正确的内容——因为它理解的是文字背后的意图，而不仅仅是文字本身。

这就是 RAG 效果这么好的原因。模型不只是检索文本——它检索最相关的含义。

19. AI 代理（AI Agent）

到目前为止，我们讨论的所有内容都集中在生成文本的模型上。但是如果模型可以采取行动呢？

AI 代理本质上是一个不仅能回复、还能采取行动的语言模型。它不满足于给出答案，而是可以操作工具、运行代码、搜索信息、调用 API，并结合这些步骤来完成一个任务。

换句话说，它从思考 → 行动。

大多数代理在一个简单的循环中运作：

观察当前情况
决定下一步做什么
采取行动
基于变化重复这个过程

语言模型处于这个循环的中心，在每一步扮演决策者的角色。

想象一个处理 Bug 的代码助手：它阅读问题 → 浏览代码库 → 定位问题 → 编写修复 → 运行测试 → 查看失败结果 → 调整方案 → 直到一切通过。每一步都依赖上一步的结果，模型在获得新信息时不断调整。

这很强大，但也容易出问题——每一步都有可能出错，小错误会累积。一个看起来简单的任务，当涉及连续多个决策时，可能变得不可靠。

所以构建好的代理不仅关乎能力——更关乎可靠性。现代系统高度重视规划、验证、重试和自我修正，以保持多步骤工作流的正确方向。

简单来说，AI 代理是把语言模型变成在真实世界中能采取行动的系统的技术。

20. 扩散模型（Diffusion Models）

到目前为止，我们讨论的大部分内容是关于文本的。那图像呢？

扩散模型就是答案——它是许多现代图像生成器背后的技术。

这个想法出人意料地反直觉。模型不是学习如何直接创建图像，而是首先学习如何破坏图像。在训练过程中，真实的图像被逐步添加噪声，一遍又一遍，直到变成完全的静态。然后模型学习反向过程——逐步去除噪声，恢复原始图像。

当需要生成新内容时，过程反转：你从纯噪声开始。然后，一步一步地，模型清理它——添加结构、形状和细节——直到一张完整的图像浮现出来。每一步都在你的提示引导下精炼结果，将随机性转化为有意义的东西。

“扩散”这个名字来自物理学，指粒子随时间随机扩散的过程，就像墨水在水中扩散。这里，模型学习的是相反的方向——如何从随机中恢复秩序。

有意思的是，这个想法不再局限于图像。同样的方法现在被用于生成视频、音频、3D内容，甚至用于科学领域如设计分子或预测蛋白质结构。

简单来说，扩散模型让 AI 从纯噪声中——创造出你可以看到、听到或使用的东西。

总结

这 20 个概念构成了现代 AI 的基础。它们从最底层的神经网络（模拟人脑的连接结构），到Transformer（几乎所有现代大模型的核心架构），再到LLM（我们今天在使用的实际产品），最后到各种优化和应用技术——微调、RLHF、LoRA、量化——以及构建智能系统的框架——RAG、向量数据库、AI Agent。

理解这些概念不需要数学背景，只需要一种直觉——知道它们解决什么问题、如何协同工作。

如果你觉得这篇文章有帮助，别忘了点赞和分享给也在学习 AI 的朋友。我会继续发布更多这样的内容——简单、实用、真正有用。

AI 工具帮助我优化和整理了本文的部分内容，并生成了配图。但这里的叙述、对话和观点完全是我自己的。AI 只是帮助我更清晰地表达这些想法。 😊

版权所有，本作品采用知识共享署名-非商业性使用 3.0 未本地化版本许可协议进行许可。转载请注明出处：https://www.wangjun.dev//2026/05/20-ai-concepts-explained/