Kai Chen

Hi, I'm Kai

I write about machine learning, LLM systems, AI infrastructure, and the cities and journeys that stay with me after the trip is over.

Engineer, researcher, traveler, husband, and father. This site is where technical notes and personal essays live together.

About

A life between models and maps

我的写作主要分成两条线。一条是技术,记录模型、系统和工程化中的理解;另一条是旅行与生活,记录那些值得被时间反复回望的地方与片刻。

这里既有大模型、推理系统、训练技巧和工程化实现,也有旅行中的城市、海岸线、街巷和那些被记住的日常。

  • Machine Learning / Deep Learning
  • LLM / AI Infra / NLP / CV
  • Travel writing / long-form notes
More about me →
Posts 54
Focus ML, LLM, Infra
Also Writing Travel & Life
Blogs

Selected writing

View archive →

Claude Code 如何工作

最近系统性梳理了一遍 Claude Code 的整套设计,发现它和很多”看起来很像魔法”的 agent 产品不太一样。它确实是一个 terminal-based coding agent,但真正支撑它稳定运行的,不是某种特别花哨的推理框架,而是一套很扎实的工程约束:上下文怎么组装,memory...

KV Cache 如何影响了 LLM Inference

近年来,主流大语言模型架构正经历从标准多头注意力(MHA)向多查询注意力(MQA)、分组查询注意力(GQA)及多头潜在注意力(MLA)的范式转移。这一演进的核心驱动力在于解决自回归解码阶段 KV Cache 带来的显存容量与带宽瓶颈(即“内存墙”问题),旨在通过降低访存开销来显著提升推理吞吐量...

Context, RAG and Memory

Context、RAG、Memory 不是互斥,而是互补。上下文工程用于会话即时优化,RAG 用于把权威文档注入生成,长期记忆用于跨会话个性化。 Context、RAG、Memory 对比 维度 Context Engineering ...

Into AI Agent

在当今的 LLM 应用中,Agent 是一个至关重要的概念。它能帮助 LLM 完成代码生成、问题解答、多轮对话等复杂任务。然而,在众多 LLM 应用中,最成功的那些往往不依赖于复杂的架构或特殊的计算库,而是采用简单、通用的 Agent 模式。 什么是Agent “Agent”可以有多种定义...

泰国的山海

自从出行游玩要带上小朋友之后,我发现我和我太太能选择的旅行目的地范围越来越小了,总得围绕着路程近、交通方便、环境好、食物适应这几个论点展开,但在这之上,有一个点更是王炸——就是有海滩。对于学龄前的小朋友来说,海滩真是一个绝佳的地方,他们可以在沙滩上瞎玩一整天,而丰盛的海鲜又很满足我们这种生长在...

Inside vLLM and KV Cache

随着大语言模型 (LLM) 在各个领域的广泛应用,如何高效地部署和推理这些模型成为了一个关键挑战。传统的模型推理服务往往面临着内存利用率低、吞吐量受限、延迟不可控等问题,这些瓶颈严重制约了 LLM 在生产环境中的规模化应用。vLLM 作为一个专为 LLM 优化的高性能推理服务框架,通过一系列创...