Page 2 - Showing 4 of 12 posts
View all posts by years →
- RoPE位置编码:从排列不变性到多频率机制
深入解析 RoPE(Rotary Position Embedding)—— 现代大语言模型位置编码的标配方案,从数学原理到工程实现,特别是浮点数精度问题的深入分析
17 min read - 为什么Transformer需要归一化?从梯度消失到RMSNorm
深入探讨为什么深层神经网络需要归一化,以及 RMSNorm 如何成为现代 LLM 的标配
14 min read - 国内小厂前端实习面试总结与技术准备指南
系统总结国内小厂前端实习面试的技术考点、投递数据分析、以及完整的技术准备清单
11 min read - 人生中第一个pr
一个大二学生第一次成功为开源社区提pr的心得感想
8 min read