Page 1 - Showing 7 of 7 posts
View all posts by years →
- FeedForward与Transformer Block:Attention之外的另一半
深入解析 FeedForward 前馈网络,以及如何将 RMSNorm、RoPE、Attention、FeedForward 四大组件组装成完整的 Transformer Block。读完本文,你将彻底掌握 Transformer 的完整架构
22 min read - 深入理解Attention机制:从Q、K、V到Multi-Head
深入解析 Attention(注意力机制)—— Transformer 的核心引擎。用数据库查询的类比,彻底理解 Q、K、V 的含义,掌握 Multi-Head Attention 的实现,并澄清 Softmax 与 RMSNorm 的常见混淆
19 min read - RoPE位置编码:从排列不变性到多频率机制
深入解析 RoPE(Rotary Position Embedding)—— 现代大语言模型位置编码的标配方案,从数学原理到工程实现,特别是浮点数精度问题的深入分析
17 min read - 为什么Transformer需要归一化?从梯度消失到RMSNorm
深入探讨为什么深层神经网络需要归一化,以及 RMSNorm 如何成为现代 LLM 的标配
14 min read - 国内小厂前端实习面试总结与技术准备指南
系统总结国内小厂前端实习面试的技术考点、投递数据分析、以及完整的技术准备清单
11 min read - astro-theme-pure主题部署 Waline 评论系统全流程指南
个人在为astro-theme-pure主题部署 Waline 评论系统全流程指南以及踩坑
4 min read - 人生中第一个pr
一个大二学生第一次成功为开源社区提pr的心得感想
8 min read