从 Transformer 到 LLM:RoPE、KV Cache、FlashAttention 的工程化落地
面向工程实战系统讲清 RoPE、KV Cache、FlashAttention:核心公式、复杂度分析、显存估算与可落地代码实现。
这是一个纯静态的博客骨架:主页文章列表 + 文章页样式 + 简易搜索。 你可以先用它跑通部署,然后再迁移到 Hugo + Markdown。