Back
深入解析 Attention(注意力机制)—— Transformer 的核心引擎。用数据库查询的类比,彻底理解 Q、K、V 的含义,掌握 Multi-Head Attention 的实现,并澄清 Softmax 与 RMSNorm 的常见混淆
llm
transformer
minimind
attention
multi-head