Kyrie Chen

Hi, that's Kyrie

I write about machine learning, LLM systems, AI infrastructure, and the cities and journeys that stay with me after the trip is over.

Engineer, researcher, traveler, husband, and father. This site is where technical notes and personal essays live together.

About

A map between models and life

我的技术分享和心得记录了我求学和工作过程中的每一步;而对旅行与生活的分享,记录那些值得被时间反复回望的地方与片刻。

这里既有大模型、推理系统、训练技巧和工程化实现,也有旅行中的城市、海岸线、街巷和那些被记住的日常。

  • Machine Learning / Deep Learning
  • LLM / AI Infra / NLP / CV
  • Travel writing / long-form notes
More about me →
Posts 55
Focus ML, LLM, Infra
Also Writing Travel & Life
GitHub Activity Loading...
Tech Stack

Skills & Tools

Python C++ Java JavaScript Go SQL PyTorch TensorFlow Transformers LangChain RAG CUDA FastAPI Flask Spring React Git Docker Kubernetes AWS Redis PostgreSQL
Projects

Featured Work

View all on GitHub →

LLM Inference Engine

High-performance LLM serving system with dynamic batching, quantization support, and distributed inference capabilities.

Python PyTorch CUDA FastAPI

RAG Pipeline

Production-ready retrieval-augmented generation system with vector database, embedding optimization, and context management.

LangChain Transformers Redis

ML Training Platform

Distributed training infrastructure with experiment tracking, hyperparameter tuning, and model versioning.

TensorFlow Kubernetes Docker

NLP Toolkit

Collection of NLP utilities for text processing, sentiment analysis, and entity recognition with multilingual support.

Python spaCy BERT
Blogs

Selected writing

View archive →

Claude Code 如何工作

最近系统性梳理了一遍 Claude Code 的整套设计,发现它和很多”看起来很像魔法”的 agent 产品不太一样。它确实是一个 terminal-based coding agent,但真正支撑它稳定运行的,不是某种特别花哨的推理框架,而是一套很扎实的工程约束:上下文怎么组装,memory...

现代 LLM 中的 Attention 变体可视化指南

本文翻译自 Sebastian Raschka 的文章 A Visual Guide to Attention Variants in Modern LLMs,原文发布于 2026 年 3 月 22 日。文中图片均引自原文及其参考资料,专业名词保留原文英文。

KV Cache 如何影响了 LLM Inference

近年来,主流大语言模型架构正经历从标准多头注意力(MHA)向多查询注意力(MQA)、分组查询注意力(GQA)及多头潜在注意力(MLA)的范式转移。这一演进的核心驱动力在于解决自回归解码阶段 KV Cache 带来的显存容量与带宽瓶颈(即“内存墙”问题),旨在通过降低访存开销来显著提升推理吞吐量...

Context, RAG and Memory

Context、RAG、Memory 不是互斥,而是互补。上下文工程用于会话即时优化,RAG 用于把权威文档注入生成,长期记忆用于跨会话个性化。 Context、RAG、Memory 对比 维度 Context Engineering ...

Into AI Agent

在当今的 LLM 应用中,Agent 是一个至关重要的概念。它能帮助 LLM 完成代码生成、问题解答、多轮对话等复杂任务。然而,在众多 LLM 应用中,最成功的那些往往不依赖于复杂的架构或特殊的计算库,而是采用简单、通用的 Agent 模式。 什么是Agent “Agent”可以有多种定义...

泰国的山海

自从出行游玩要带上小朋友之后,我发现我和我太太能选择的旅行目的地范围越来越小了,总得围绕着路程近、交通方便、环境好、食物适应这几个论点展开,但在这之上,有一个点更是王炸——就是有海滩。对于学龄前的小朋友来说,海滩真是一个绝佳的地方,他们可以在沙滩上瞎玩一整天,而丰盛的海鲜又很满足我们这种生长在...