Rhythmic Epistles

2026-05-12

Do Your Own Harness Engineering

Intro Harness Engineering这个词最早是 HashiCorp 联合创始人 Mitchell Hashimoto 在 2026 年 2 月的博客中最早提出的。他的原话是：Agents 如果第一次就能给出正确的结果，或者至少只需稍作修改，效率会更高。实现这一目标最可靠的方法...

2026-05-05

锦绣闽中，入梦三城

今年五一，想着能带小朋友去自驾可达的玩沙滩的地方，但长三角沿线要么去过，要么实在是海滩拿不出手，就想着要么干脆开远一些直达福建。于是就有了今年这趟福州-泉州-平潭的行程。从我们家出发到福州单程的驾驶时间不算休息大概是 8.5 个小时。印象中从加州一号公路和大西北德令哈到敦煌线之后，好像单日...

2026-04-01

Claude Code 如何工作

2026 年 3 月 31 日，Anthropic 发布 @anthropic-ai/claude-code v2.1.88 时出了一个低级失误：Bun 默认生成的 59.8 MB .js.map source map 文件没有被 .npmignore 排除。几小时内，约 1,900 个 Ty...

2026-03-22

现代 LLM 中的 Attention 变体可视化指南

本文翻译自 Sebastian Raschka 的文章 A Visual Guide to Attention Variants in Modern LLMs，原文发布于 2026 年 3 月 22 日。文中图片均引自原文及其参考资料，专业名词保留原文英文。

2026-01-16

KV Cache 如何影响了 LLM Inference

近年来，主流大语言模型架构正经历从标准多头注意力（MHA）向多查询注意力（MQA）、分组查询注意力（GQA）及多头潜在注意力（MLA）的范式转移。这一演进的核心驱动力在于解决自回归解码阶段 KV Cache 带来的显存容量与带宽瓶颈（即“内存墙”问题），旨在通过降低访存开销来显著提升推理吞吐量...

2025-11-27

Context, RAG and Memory

Context、RAG、Memory 不是互斥，而是互补。上下文工程用于会话即时优化，RAG 用于把权威文档注入生成，长期记忆用于跨会话个性化。 Context、RAG、Memory 对比维度 Context Engineering ...

Hi, that's Kyrie

Where scaling laws meet the open road

Skills & Tools

Focus Areas

LLM Inference Optimization

Distributed Training & Model Architecture

Agent & Memory System