论文阅读《MemOS: A Memory OS for AI System》

发表于2026-05-02字数统计6.8k阅读时长23分

大语言模型正在从一次性问答工具逐渐走向长期运行、持续交互、跨任务协作的 Agent 系统。在这个过程中，一个越来越关键的问题浮现出来：模型如何记住过去？如何更新知识？如何在不同任务、用户和平台之间复用经验？

论文《MemOS: A Memory OS for AI System》正是围绕这个问题展开。它提出，未来的大模型系统不能只依赖模型参数和上下文窗口，也不能把 RAG 当作完整的记忆方案，真正面向长期 Agent 的 AI 系统，需要一个类似操作系统的“记忆操作系统”，把记忆作为一等系统资源进行建模、调度、治理和演化。

本文主要围绕 MemOS 提出的背景、设计哲学、记忆建模方式，以及整体架构设计对论文进行解读。

阅读全文

论文阅读《Survey on AI Memory: Theories, Taxonomies, Evaluations, and Emerging Trends》

发表于2026-04-11字数统计12.6k阅读时长44分

AI memory is not merely static storage, but a dynamic cognitive substrate critical for continuous learning and adaptation.

大语言模型（LLMs）已经展现出强大的理解、生成和推理能力，但它们默认仍更像一次性推理引擎：上下文窗口决定了“当前能看到什么”，模型参数承载的是训练阶段沉淀的通用知识，而跨会话、跨任务、跨环境的历史经验并不会自然沉淀下来。对 Agent 系统而言，这意味着它可以完成一次任务，却未必能记住用户偏好、复用过往轨迹、纠正旧信息，或在长期协作中持续成长。

AI 记忆（AI Memory）试图补上这块能力拼图。本文基于综述文章《Survey on AI Memory: Theories, Taxonomies, Evaluations, and Emerging Trends》，围绕几个核心问题展开：首先区分 LLM Memory、Agent Memory 与 AI Memory 三个层次，并澄清 Memory 与 Knowledge、Context、Experience 的边界；随后介绍论文提出的 4W 分类法，从生命周期、内容类型、存储形式和模态维度理解记忆；接着讨论单 Agent 记忆系统的主流架构、基础流程与高阶能力，以及多 Agent 场景下的共享记忆、协作一致性和治理问题；最后整理记忆系统的评估维度与典型基准，说明如何判断一个 Agent 是否真正记得住、找得准、能更新、会遗忘、用得好。

阅读全文

解读 Daft 数据分区和分批：repartition vs into_partitions vs into_batches

发表于2026-04-09字数统计5.8k阅读时长22分

故事从某客户的一次吐槽 Daft 执行性能讲起。话说某一天，一个用户突然在群里吐槽说自己以分布式模式运行的 Daft 任务，只有一个 Worker 节点在参与计算，剩余节点都在旁边吃瓜围观。

阅读全文

通过图片分类任务探寻 Daft 运行机制之 UDF 篇

发表于2026-02-28字数统计7.1k阅读时长30分

在大数据时代，用户通常习惯通过 SQL 开展数据分析任务，用户编写的 SQL 语句最终会被解析、转换成计算引擎的内置算子执行。然而，在如今 DATA + AI 的时代背景下，数据处理分析任务绕不开对于模型的调用，加上算法同学通常对 SQL 不够熟悉，因此“DataFrame + UDF”的应用组合逐渐成为主流，UDF 也由大数据时代的二等公民逐渐走到台前，扮演着与内置算子相当甚至更重要的角色。

在此前的两篇文章《通过图片分类任务探寻 Daft 运行机制之 Swordfish 引擎篇》和《通过图片分类任务探寻 Daft 运行机制之 Flotilla 引擎篇》中，我们从一个图片分类任务示例切入，分别分析了 Daft 单机执行引擎 Swordfish 和分布式执行引擎 Flotilla 的运行机制。本文我们继续沿用这个示例，将视角进一步收窄到一个更具体的问题，即 分布式模式下，Daft UDF 究竟是如何被执行的？

阅读全文

通过图片分类任务探寻 Daft 运行机制之 Flotilla 引擎篇

发表于2025-12-08字数统计6.9k阅读时长27分

本文英文版本已发布至 Daft 官网：“Distributed Model Inference with Daft: A deep dive into Daft’s distributed execution engine, Flotilla, for multimodal data pipelines”

在 DATA + AI 数据科学领域，Pandas 无疑是数据科学家和开发者们的“瑞士军刀”。凭借相对完善的 DataFrame API 和丰富的生态，Pandas 极大简化了在中小型数据集上的数据清洗、分析和探索性工作。然而，随着数据集规模的增长，Pandas 在执行效率和资源开销层面的短板也逐渐凸显，因此诞生了 Polars、Dask 一类的产品：

Polars 采取纵向优化策略，通过 Rust 语言对引擎内核进行重新设计和实现，并引入查询优化器、向量化执行引擎等手段以进一步提升执行性能，但开源版本仅提供单机运行模式。
Dask 则采用横向优化策略，可以将其看作是 Pandas 的分布式实现。

Daft 则融合了 Polars 和 Dask 二者的优势，在内核层面采用 Rust 语言实现，并提供 Python DataFrame 和 SQL 接入 API，同时提供单机和分布式两套执行引擎，并支持无缝切换运行模式。重要的是，Daft 内置多模态类型和算子，并依托于 Ray 实现异构资源管理，从而将应用领域由传统结构化数据处理拓展至多模态数据处理场景。

此前，我们曾在文章《通过图片分类任务探寻 Daft 运行机制之 Swordfish 引擎篇》中通过一个典型图片分类任务，由浅入深介绍了 Daft 单机执行引擎 Swordfish 的运行机制。本文我们将沿用这个示例，继续探寻 Daft 分布式执行引擎 Flotilla 的设计与实现。

阅读全文

通过图片分类任务探寻 Daft 运行机制之 Swordfish 引擎篇

发表于2025-09-02字数统计5.9k阅读时长25分

本文英文版本已发布至 Daft 官网：“Exploring Daft’s Local Execution: The Swordfish Engine”

Daft 是一款面向 DATA + AI 多模态数据处理与分析场景的计算引擎，支持单机和分布式两种运行模式，内核采用 Rust 语言编写，并提供 SQL 和 Python DataFrame 两种交互方式。

在文章《Processing 300K Images Without OOM: A Streaming Solution》中，作者介绍了基于 Daft 能够轻松实现对大规模图片数据集进行流式处理。那么，Daft 在幕后是如何执行用户输入的 SQL 或 DataFrame 的呢？在本文中，我们将继续以图片处理场景为切入点，通过一个典型的图片分类任务 DataFrame 示例，引领你深入探寻 Daft 单机执行引擎的运行机制。

阅读全文

论文阅读《Lance: Efficient Random Access in Columnar Storage through Adaptive Structural Encodings》

发表于2025-05-18字数统计4.8k阅读时长18分

论文《Lance: Efficient Random Access in Columnar Storage through Adaptive Structural Encodings》讨论的是一个看似底层，但对 AI/ML 数据系统非常关键的问题，即 列式存储格式不仅要擅长顺序扫描，也要能高效地做随机访问。

现代 AI/ML 工作负载同时需要“扫描大量数据”和“随机读取少量数据”，而传统列式格式的瓶颈不只在压缩算法，也在结构信息如何编码。Lance 通过自适应结构编码，在全扫描和随机访问之间取得了更好的平衡。这篇论文会围绕以下问题展开：

为什么列式存储在 AI/ML 场景下需要重视随机访问？
什么是论文反复强调的“结构编码”？
Parquet、Arrow 和 Lance 分别做了什么取舍？
Lance 的 Full Zip、Miniblock 和 Struct Packing 如何工作？
这篇论文对文件格式、向量数据库和 ML 数据系统有什么启发？

阅读全文

Ray Serve 集成 Triton 构建模型在线推理服务

发表于2025-03-31字数统计2.8k阅读时长13分

Triton Inference Server（下文简称 Triton）是 Nvidia 推出的高性能推理服务器，支持多种模型框架和硬件平台，关于 Triton 的更多内容可以参考官方文档。Triton 与 Ray Serve 在功能定位方面存在相同之处，不过二者也各有优势：

Ray Serve 原生支持以分布式模式运行，可在单一应用中编排并部署多个模型，以满足复杂推理场景的需求。同时，其内置的弹性伸缩特性能够有效平衡用户请求与资源开销。
Triton 主要专注于单机推理场景，兼容多种硬件平台。通过引入动态批处理、多 GPU 并行推理等技术以提升模型推理性能，同时支持以 Backend 插件形式集成多种模型框架，并对外提供统一的接入 API。

阅读全文

论文阅读《Presto: A Decade of SQL Analytics at Meta》

发表于2023-07-18字数统计6.6k阅读时长25分

我们曾在此前的文章中专门解读过《Presto: SQL on Everything》这篇论文，该论文从整体视角介绍了 Presto 这个分布式计算引擎的架构设计与系统实现。在 Presto 诞生十年之际，Meta 团队又发表了题为《Presto: A Decade of SQL Analytics at Meta》的论文以回顾 Presto 在 Meta 公司过去十年所面临的挑战以及架构演进。

本文我们将解读这篇十年回顾之作，如果说前者回答的是“Presto 为什么能用统一 SQL 查询一切”，那么后者回答的就是另一个更现实的问题，即当这个系统在 Meta 内部持续运行十年，并被推到 EB 级数据、弹性容器、长时间 ETL、机器学习、隐私合规和图分析等更复杂场景时，它是如何继续演进的。

阅读全文

论文阅读《Presto: SQL on Everything》

发表于2021-01-12字数统计5k阅读时长19分

论文《Presto: SQL on Everything》介绍的是 Facebook 在生产环境中长期使用并开源的分布式 SQL 查询引擎 Presto，该引擎允许用户用统一的 SQL 查询 Hadoop 数据仓库、RDBMS、NoSQL、流系统，以及各种内部服务。论文中的 Presto 同时支撑交互式分析、Batch ETL、A/B 实验、外部报表等场景，这些负载对延迟、吞吐、并发和资源隔离的要求差异很大，因此 Presto 的核心设计可以概括为：以 Connector 连接异构数据源，以流水线执行降低查询延迟，以自适应调度和资源管理支撑多租户负载。

阅读全文