Joye Personal Blog

Blog Projects Links About

Back

Tags: #multi-head

2025年12月18日

深入理解Attention机制：从Q、K、V到Multi-Head

深入解析 Attention（注意力机制）—— Transformer 的核心引擎。用数据库查询的类比，彻底理解 Q、K、V 的含义，掌握 Multi-Head Attention 的实现，并澄清 Softmax 与 RMSNorm 的常见混淆

19 min read
- llm
- transformer
- minimind
- attention
- multi-head