MOE模型小窥

Kyrie Chen 2025-02-18

Mixture of Experts (MoE)架构是一种先进的机器学习模型设计，特别适用于大语言模型（LLM）。在MoE架构中，整个模型被划分为多个专门的子网络（称为“专家Experts”），每个专家针对特定类型的数据或任务进行训练。通过一个门控网络，MoE能够动态选择和激活与输入数据最相关的专家，从而实现稀疏计算。这种方法使得在处理复杂任务时，模型能够显著减少计算成本，同时提高性能和效率。

南洋一梦

Kyrie Chen 2025-02-05

今年春节假，因为我太太怀孕的缘故，所以想去一个稍微温暖一点的地方，想来想去她打算去趟新加坡，然后过道香港回来。另一个私心是，新加坡和香港都是我们有考虑过之后移居发展的地方，也想有个比较参考。这趟旅行因为我女儿越来越重导致抱着她行动很不方便所以显得格外的累，但是浙两地浓厚的过年氛围和美好的自然人文风光却是不虚此行。

推测解码Speculative Decoding

Kyrie Chen 2024-10-10

LLM
NLP

推测解码（Speculative Decoding）是一种大模型的推理加速方式。

约会亚平宁

Kyrie Chen 2024-10-07

上次来欧洲已经是5年前了，中间那三年噩梦般的新冠时期都不知道是怎么熬过来的。从西班牙回来后，戒断反应似乎一直在，我太太和我疯狂地爱上吃海鲜饭paella，又对参观各种哥特式教堂着迷。所以在结婚六周年纪念日邻近时，就想着趁着十一假期再去一趟欧洲。最后我们选择了号称欧洲旅游天花板的意大利🇮🇹。而后来我们的经历也证明，这趟旅行的美好远不止此。

宝藏三晋

Kyrie Chen 2024-07-13

今年最火的国产3A大作《黑神话-悟空》虽然我还没入手开玩，但是着实是把山西旅游的给推向了流量潮头。一大批游客冲着山西的古建筑蜂拥而至。山西腹地相对封闭的地理环境和干燥的气候，使得很多木质古建筑被保存的很好。

The Needle In a Haystack Test

Kyrie Chen 2024-05-16

LLM
NLP

所谓的大海捞针实验（The “Needle In a Haystack” test）是设计用来评估LLM RAG系统在不同长短的上下文中的表现。它的工作原理是将特定的、有针对性的信息“针”（“Needle”）嵌入更大、更复杂的文本主体“草垛”（“Haystack”），目标是评估LLMs在大量数据中识别和利用这一特定信息的能力。

富士初窥

Kyrie Chen 2024-05-04

春节假期离开日本的三个月后，戒断反应还在。看着出去玩的照片还是不时地回忆起全家老小在日本瞎玩的经历。所以趁着多年签还有效就在五一又回了日本。其实日本对于我们这种家庭是挺好的旅行选择，能出个国但是玩东西又比较多，物价合理而且不需要飞行很久，适合带娃说走就走。

Retrieval-Augmented Generation(RAG) for LLMs

Kyrie Chen 2024-04-20

RAG ，检索增强生成技术（Retrieval-Augmented Generation，RAG），通过在语言模型生成答案之前，先从广泛的文档数据库中检索相关信息，然后利用这些信息来引导生成过程，极大地提升了内容的准确性和相关性。RAG 有效地缓解了幻觉问题，提高了知识更新的速度，并增强了内容生成的可追溯性，使得大型语言模型在实际应用中变得更加实用和可信。