登顶GitHub Hacker News，这个开源项目让AI编程成本降低 98%｜涌现新项目

36Kr (36氪)

登顶GitHub Hacker News，这个开源项目让AI编程成本降低 98%｜涌现新项目

文｜李嘉星编辑｜周鑫雨一句话介绍 context-mode 是一款专为 AI 编程打造的上下文优化 MCP（Anthropic 发布的模型上下文协议）插件。它解决了开发者在长周期开发中遭遇的“模型失忆”与“Token 过多消耗”的核心痛点。据团队表示，在编程场景下，context-mode 能够让 AI 编程的成本降低 98%，同时将大模型的记忆力从30分钟提升至 3 小时。团队背景 context-mode 的背后是一支背景多元的跨国初创团队。目前团队的核心成员分布在土耳其、法国等 4 个国家，主要通过 GitHub 异步协作。 Mert Köseoğlu（核心开发者、创始人）：曾作为技术顾问为 OpenAI 等企业提供技术服务，拥有超 10 年全栈工程与系统架构经验。创业前，他曾先后任职于 Countly、Planhat 及 Jotform 等全球知名数据与 SaaS 平台，担任高级软件工程师。孙逸诚（核心开发者、多平台适配负责人）：团队里的中国面孔，目前大二在读。他曾入围强基计划（数学与物理全省前 18 名），具有 Temporal-RAG（时序数据检索增强）引擎的独立开发经验，并获得知乎全球 A2A（Agent-to-Agent）黑客松银奖。产品及业务图源: context-mode 简单来说，context-mode 是一款专门为 AI 编程助手“减负”和“整理记忆”的开源 MCP 插件。该项目发布后曾登顶 GitHub Hacker News ，目前已在 GitHub 获得超 1.5 万颗 Star。context-mode 现已吸引逾 24.3 万名开发者接入，完成了对 15 个主流平台的底层适配，并被微软、谷歌、Meta、字节跳动及 Cursor 等科技公司的研发团队采用。 context-mode 之所以能在极客圈获得大量的关注，正是因为其精准切中了一个令人头疼的行业焦虑：被昂贵API账单和大模型失忆逼疯的开发者随着“龙虾（OpenClaw，一个开源 Agent 框架）”等全自动AI编程智能体的普及，Vibe Coding 的应用门槛进一步降低。然而，享受到 AI 带来的效率提升的同时，用户很快意识到，智力是昂贵的：一方面，Claude、GPT等顶尖模型的 Token 定价并不便宜，包含充足 Token 额度的高级套餐，定价动辄高达 200 美元/月。另一方面，受制于当下的能力，在执行具体任务过程中，模型的反复试错、重复检索都会造成额外的 Token 浪费。在实际开发场景中，大模型往往表现得像一个“没有常识的数据处理机器”。团队成员孙逸诚分享了一个踩坑经历：参加 Kaggle 数据竞赛时，他将一个包含 300 组数据的训练任务交给了 Claude。为了确认任务进度，Claude 没有选择写一段定时脚本，而是选择每隔 5 秒钟向整个项目发起一次全局检索。这种极其低效的“死盯”策略，让一个高配会员账号的 API 额度在短短半小时内消耗了 90%。与此同时，大模型还存在“失忆”的问题。开发者发现，当代码量触及某些主流 IDE（集成开发环境）的隐形上限（如 164K）时，系统会不得不丢弃或压缩历史信息，导致模型遗忘关键细节。这就导致：前一秒还在流畅写代码的 AI，下一秒就会把前置的关键架构和约束条件忘得一干二净。面对大模型严重的“幻觉”与“失忆”，context-mode 给出了解法：既然大模型处理海量原始数据又贵又笨，那就剥夺它直接阅读原始数据的权利。孙逸诚打了一个比方：“传统的 AI 编程就像看一场马拉松，大模型会死死盯着每一个选手的每一步，这当然会耗尽它的上下文。而 context-mode 做的，是把跑马拉松的过程扔进一个屏蔽的沙盒（Sandbox）里，大模型只需要看最后的排名结果。” 具体到工作原理，首先，通过引入“虚拟沙盒”与精准检索，context-mode 能够有效降低 Token 的消耗。在传统的调用模式中，每一次 MCP 工具的调用都极其昂贵，庞大的原始数据会被直接倾倒进大模型的上下文窗口，导致 Token 消耗量上升。 context-mode 的“虚拟化沙盒”机制，就好比在大模型和操作系统间建立了一道“防火墙”。它会先把所有文件和运行记录存放在本地，需要用到时再帮大模型把相关内容找出来。《智能涌现》的测试结果。根据《智能涌现》的测试，接入 context-mode 后，大模型读取一份 79.3 KB 的文件时， Token 的消耗成本降低了 87.7%。其次，为了解决大模型的“失忆”痛点，context-mode 通过构建“存档点”，实时监控开发者的每一次文件编辑。当对话太长，它会主动构建并向 AI 注入一个通常小于 2KB 的“快照”，相当于在代码编辑过程中建立了一个“存档点”。官方表示，这种机制能将大模型连续编程的有效时间从 30 分钟提升至 3 小时。最后，context-mode 引入了强制性“用代码思考（Think in Code）”的范式，从而节省 Token 消耗。所谓的 Think in Code，简单而言，就是不让模型逐行阅读、处理文件，而是先让模型编写一个“小程序”，让“小程序”先在本地完成数据分析，再将提炼后的结果反馈给模型。 context-mode 创始人 Mert 告诉《智能涌现》，开发者陷入了一个误区：习惯将海量数据直接丢给大模型进行处理。实际上，面对 50 个文件的数据统计任务，与其让模型亲自逐个阅读，不如先让模型写一段脚本，由脚本完成统计工作，再把结果返回给模型。用 Mert 的话说，一个脚本可以替代十几个昂贵的工具调用，并节省百倍的上下文。根据《智能涌现》的测试，接入 context-mode 后，模型处理一份文件时，节省了 99.98% 的 Token 成本。 context-mode 的上手门槛，比 Cursor 等需要重新下载并适应环境的独立开发软件（IDE）更低。作为一个轻量级的 MCP（模型上下文协议）插件中间件，context-mode 可以直接接入开发者原有的工作流中。 context-mode 团队还提供了一系列快捷指令，用来查看各大平台的 Token 节省情况。用户只需要在聊天框中输入指令，浏览器就会弹出一个本地的数据统计面板，记录着当周调用了多少次 API，以及 context-mode 拦截了多少次无效的数据读取。 △快捷指令列表。图源: context-mode 近期，context-mode 针对企业研发场景，推出了 “上下文即服务” 。在企业研发场景中，AI 的 ROI 往往难以衡量。为此，context-mode 推出了企业服务“Insights”。获得授权后，安装在程序员电脑上的插件，可以直接将程序员使用 AI 的过程数据（比如调用了什么工具、报错了几次、消耗了多少钱），发送到Insights 所在服务器上。与此同时，Insights 还能针对不同岗位，提供不同的数据报告。比如面向安全总监，系统会自动生成安全报告；面向财务团队，系统可以提供 Tokens 消耗明细。目前，Insights 仍处于定向内测阶段。 Founder思考停止将大模型视为“数据处理器”，它本质上是“代码生成器”。现在很多平台和开发者陷入了一个误区，喜欢把 50 个文件直接读入上下文，让大模型去里面“数”有多少个函数。这不仅缓慢，而且极其浪费算力。我们的主张是“用代码思考（Think in Code）”——LLM 应该去编写一个统计脚本来完成计数，最后只输出结果。一个脚本可以替代十几个昂贵的工具调用，并节省百倍的上下文。在未来的 AI 编程范式中，这是所有平台都必须遵循的底层铁律。无限上下文是一个伪命题，克制才是 AI 工具最难建立的壁垒。行业里都在卷大模型的长文本能力（比如 100K 甚至 1M 的上下文），但这其实是个陷阱。把几十 KB 的报错日志一股脑倾倒给 AI，只会加速它的“失忆”和幻觉。真正的解法不是盲目扩容，而是建立起一套极度克制的“状态记忆层（沙盒）”。谁能把传给 AI 的无效噪音压缩到极致，谁才能真正帮开发者把连续编程的时间从 30 分钟延长到 3 个小时。下一代 AI 编程的瓶颈不在于模型够不够聪明，而在于上下文管理框架够不够清晰。现在大家都在抱怨 AI 会在同一个 Bug 上反复跌倒。这并不是因为模型变笨了，而是它在冗长的对话中迷失了。只有给 AI 提供像单机游戏一样的存档点，强制它按优先级读取记忆，才能为它真正有价值的逻辑推理留出足够的空间。大厂在卷“全家桶”，而我们在做跨平台的“万能插座”。我们花大量精力去适配 Cursor、Claude、Gemini 等不同的底层逻辑，是因为真实的开发者生态永远是碎片化且快速迭代的。开发者不需要另一个被大厂深度绑定的全能 Agent，他们需要的是一个轻量、不吃内存、即插即用且能极大降低 API 账单的中间件。

Go to News Site

Google Play

App Store