2025-07-15
用 Vibe Coding 解决 LLM 限制采样的面试题

这是我司的一道面试题。

有人说我们的 Vibe Coding 编程题太难了,其实我司的 2 小时 Vibe Coding 面试题都基本不需要自己写代码。只要把题输到 prompt 里面,跟 LLM 持续交互提需求和改进方向,AI 就给你自己做完了。

为什么叫 Vibe Coding?就是让你尽量少直接写代码。人和 AI 的分工变得非常明确:人负责把控方向、定义问题、审查结果,而 AI 负责具体的实现。像 Claude Code 这种就是一个极致,人不准动代码,只有 LLM 能动代码。

下面,我将通过这道面试题的完整经历,来展示 Vibe Coding 是如何运作的。这整个探索过程并非一帆风顺,AI 的初期方案存在严重缺陷。正是通过我不断的审查和方向修正,我们才最终抵达了那个可用的解决方案。这不仅是关于一个技术问题的解答,更是一次关于未来软件开发模式的深度探索。

值得一提的是,这篇文章本身,也是我在 Cursor 中,让 Gemini 2.5 Pro 根据我的工作日志(包含我与 AI 的所有对话、代码的演进过程)自动生成的。从我开始向 Cursor 提出最初的问题,到完成最终可用的程序,再到生成这篇图文并茂的博客文章,整个过程仅花费了 1.5 小时。

The Challenge: LLM 限制采样

一个学英语的软件需要保证其内置的 LLM 输出的所有单词都必须在一个 3000 词的词库范围内。

要求:

  1. 使用大语言模型(LLM)的限制采样(Constrained Sampling)方法,修改推理框架(如 transformers)中的 token 采样算法,保证 LLM 输出的所有内容都在这个给定的 3000 词的词库范围内。
  2. 当然,要允许输出标点符号、空格、换行等,但不允许输出特殊字符、中文、法语、表情符号等。
  3. 词库中单词的大小写变换都认为是合法的单词,例如词库中有 apple 一词,那么 appleAppleAPPLE 都认为是合法的输出。
  4. 3000 词的词库可以从网上随便找一个常见英语单词表。
  5. 要求限制采样算法性能尽可能好。
Read More

2025-07-12
巧用香港中转,搭建丝滑稳定的中美三层隧道

在之前的文章《搭建全程美国 IP、无需手动设置代理的三层隧道》中,我们通过 国内服务器 -> 美国服务器 的架构,解决了访问全球服务时遇到的诸多网络问题。但一个新的性能瓶颈逐渐显现:国内服务器与美国服务器之间的公网连接,在高峰时段延迟高、丢包严重。

这导致即便我们使用了隧道,依然会遇到 SSH 操作卡顿、在线会议掉线、API 请求超时等问题。根本原因在于中美之间的国际互联网链路,如同一条节假日的高速公路,拥堵是常态。

面对这个问题,一个反直觉的解决方案浮出水面:如果直路不通,我们绕路走会不会更快?

Read More

2025-07-10
中关村人工智能学院 & 国科大 2025 暑期 AI Agent 实践课题

2025 年 2 月在国科大的 AI Agent Hackathon 非常成功,因此 2025 年 7 月 27 日至 30 日在中关村人工智能学院,7 月 31 日至 8 月 4 日在国科大,我将再次 host 两个 AI Agent 实践课题。

非常感谢中关村人工智能学院副院长郑书新老师、国科大刘俊明老师邀请我来 host 这两场 AI Agent 实践活动。

本次 AI Agent 实践的所有课题将带你深入探索构建下一代 AI Agent 的前沿技术。你将有机会亲手实践:

  • 多模态模型、思考模型应用:以 Gemini 2.5 Pro、Claude 4 Sonnet 等业界领先的多模态模型和思考模型为核心,构建智能体的 “大脑”。
  • 实时语音交互:整合 VAD、ASR、LLM、TTS 技术栈,打造能够流式对话的实时语音 Agent。
  • 自主操作图形界面:开发能稳定操作浏览器等 GUI 的 Agent,完成真实世界的复杂任务。
  • 高级 Agent 架构:探索 “快慢思考”、“边听边想”、多智能体协同等先进架构,让 Agent 兼具实时响应和深入思考的能力。
  • 从经验中学习:构建能从经验中学习的 Agent,让它在重复任务中 “越做越熟练”。
  • 识别权威信息源:让 Agent 能在海量信息中,精准识别并采纳官方文档、学术论文等高可信度的信息。
  • 自主工具调用与创造:让 Agent 不仅能使用现有工具,更能自主学习并创造新工具来解决开放性问题。

关于 AI 辅助编程的建议: 在本次 AI Agent 实践中,我们鼓励大家使用 AI 辅助编程,也就是 “用 Agent 开发 Agent”。我们推荐使用 Cursor 进行 Vibe Coding,这里有一些建议:

  1. 文档先行,代码后上:先让 Cursor 写设计文档。你的角色是针对 AI 生成的设计文档提出改进意见,和 AI 一起迭代,直到满意为止。然后,再让 Cursor 按照最终的设计文档来写代码。在编码过程中,始终将设计文档放在 Agent 的上下文中作为参考。
  2. 选对模型:不要用 Cursor 的 “auto” 模式,一定要选择带思考能力的模型(旁边有一个大脑图标的),例如 Claude 4 Sonnet。
  3. 测试驱动:一定要让 AI 为它写的代码编写并执行测试用例,确保代码质量。

请自由组队,从以下课题中任选其一,开启你的创造之旅!

Read More

2025-07-10
国科大 2025 春季 AI Agent 实践课题

AI Agent 实践课程是国科大刘俊明老师和我一起开展的实践课程,2024 年第一届有 50+ 名同学参加,2025 年第二届有 100+ 名同学参加。2025 年春季 AI Agent 实践课题于 2025 年 2 月初在北京进行。

课题目录:

Read More

2025-07-08
科大学长天团亲自带,Pine AI 实习/全职招聘

我们是谁?

Pine AI 致力于用 AI 帮助用户处理日常琐事和争议。

在美国,打客服电话通常是一件很麻烦的事情。你可能需要先等待半小时,然后花很长时间和客服沟通。如果客服不愿意帮你处理,你可能还会被转接到其他部门。整个流程下来,一个电话有时会耗费一两个小时。对很多人来说,并没有这么多时间去跟客服扯皮,有时候就吃了哑巴亏。还有一些人英语口语不够好,打电话沟通也很费劲。

Pine AI 正在打造能言善辩、知识渊博、记忆超群的 AI Agent,可以自动化地帮你完成这整个流程,让 AI 能打电话、发邮件、用电脑,像人类秘书一样为你办事。

这绝对不是 SOTA 模型套上一个 prompt 这么简单。我们正在寻找优秀的你,一起来挑战这个世界级的难题。

Read More

2025-06-30
我和孟佳颖的译著《图解 DeepSeek 技术》即将上市

Read More

2025-06-12
能办成事的 Agent:实时与环境交互,从经验中学习

【本文是笔者在 A2M 互联网架构与 AI 技术峰会图灵大模型技术专场的受邀报告。】

下载 PDF:《能办成事的 Agent:实时与环境交互,从经验中学习》

大家好,欢迎来到 A2M 峰会。今天我分享的主题是 “能办成事的 Agent:实时与环境交互,从经验中学习”

先介绍一下我自己。我是 Pine AI 的联合创始人和首席科学家

目前我们 Pine AI 的业务是,通过 AI 打电话帮助用户处理一些日常琐事和争议。在美国,打客服电话通常是一件很麻烦的事情。比如,你可能需要先等待半小时,然后还要花很长时间和客服沟通。如果客服不愿意帮你处理,你可能还会被转接到其他部门。所以整个流程下来,一个电话有时会耗费一两个小时。对很多人来说,并没有这么多时间去跟客服扯皮,有时候就吃了哑巴亏。还有一些人英语口语不够好,打电话沟通也很费劲。而 Pine 可以通过 AI 自动化地帮你完成这整个流程

让今天的 AI 能帮用户端到端扯皮办事其实是非常难的,绝对不是 SOTA 模型套上一个 prompt 这么简单。大多数 AI 产品都是仅仅给用户提供一些信息,比如生成一个调研报告,而实际办事还是要用户自己去联系客服。

让 AI Agent 能端到端办成事,其实非常困难。我们今天就来介绍一下其中一些核心技术挑战,以及 Pine AI 是如何解决这些问题的。

Read More

2025-04-28
搭建本地防污染 DNS 实现国内外网站智能分流

本文介绍了一种轻量级智能 DNS 分流解决方案,通过在本地搭建 Python DNS 服务器,同时查询国内外上游 DNS 并智能判断结果,有效避免 DNS 污染问题,同时保证国内网站获得最佳的本地解析结果。这种方案无需维护复杂的域名列表,能自动适应网络环境变化,为用户提供无缝的上网体验。

整体架构如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
                                   +------------------------+
| 应用程序 DNS 请求 |
+------------------------+
|
V
+----------------+ +------------------------------------------------+
| | | 轻量级 Python DNS 服务器 (53 端口) |
| 中国 IP 地址库 |--->| 同时查询国内外DNS,智能判断最佳响应 |
| | +------------------------------------------------+
+----------------+ / \
/ \
+------------------+ +------------------+
| 国内 DNS 服务器 | | 国外 DNS 服务器 |
| (114.114.114.114)| | (1.1.1.1) |
+------------------+ +------------------+
Read More

2025-04-27
我的译作《图解大模型——生成式 AI 原理与实战》已经上市

【感谢各位读者朋友发来的超过 50 条勘误!读者朋友们真的非常细心,发现了这么多错误,非常感谢指正!】

我的译作《图解大模型——生成式 AI 原理与实战》(Hands-On Large Language Models)已经于 2025 年 5 月上市,在京东、淘宝等平台上搜索 “图解大模型” 即可。

对本书的赞誉(中文版)

非常感谢硅基流动创始人袁进辉老师、微软亚洲研究院院长周礼栋老师、阿里巴巴 Qwen 算法负责人林俊旸老师、CAMEL-AI.org 社区创始人李国豪老师、特工宇宙(AgentUniverse)创始人仲泰老师倾力推荐!


译者序

大模型发展迅速,可谓 “AI 一天,人间一年”。很多人在百花齐放的模型花园中迷失了方向,不知道手头的应用场景应该用什么模型,也无法预判未来一年模型的发展方向,时常陷入焦虑。其实,如今几乎所有大模型都是基于 Transformer 架构的,万变不离其宗。

而《图解大模型》这本书正是帮你系统了解 Transformer 和大模型的基本原理和能力边界的绝佳资料。当图灵公司找到我翻译这本书时,我看到作者的名字就第一时间答应了,因为我当年就是读了 Jay Alammar 的 “The Illustrated Transformer” 这篇博客文章才真正弄懂 Transformer 的(本书第 3 章就是由这篇博客文章扩展而来的)。如今市面上讲解大模型的图书和文章浩如烟海,但本书的插图之精美、讲解之深入浅出是罕见的。本书从词元和嵌入讲起,不局限于生成模型,还包括很多人忽视的表示模型。此外,书中还包括文本分类、文本聚类、提示工程、RAG、模型微调等实用内容。

我非常荣幸成为这本书的译者,与编辑刘美英老师一起合作,把这本书带给中国读者。

花些时间读一下本书,系统地了解 Transformer 和大模型的基本原理和能力边界,就如同在大模型的探险之旅中拥有了地图和指南针。这样,我们不但不会担心新发布的模型一夜之间让长期的工程积累变得无用,还可以为未来的模型开发产品。模型能力一旦就绪,产品就可以马上起量。

希望本书能够成为大模型花园的观光巴士,让更多人看到大模型的全景。这样,大模型不断扩展的能力边界就是一场视觉盛宴,而非吞噬一切的怪兽;我们就有机会站在 AI 的潮头,实现更多梦想,获得更多自由。

Read More

2025-04-27
《图解大模型》配套阅读——大模型面试题 200 问

本文是《图解大模型——生成式 AI 原理与实战》一书的配套资料。

我在面试候选人和参加业内研讨会时,常常发现很多人有大量实战经验,但对模型的基本原理知之甚少。为了帮助大家更好地理解本书,也为了方便部分有面试需求的朋友更有针对性地阅读本书,围绕本书各章主题,我系统梳理了大模型领域常见的面试题。其中的大多数问题都可以在书中直接找到答案,部分进阶问题可以从本书的参考文献或网络上的最新论文中找到答案。希望所有的朋友都能够带着这些问题阅读本书。

第一章:大语言模型入门

  • Transformer 中的编码器和解码器有什么区别,只有编码器或者只有解码器的模型是否有用?
  • GPT 跟原始 Transformer 论文的模型架构有什么区别?
  • 仅编码器(BERT 类)、仅解码器(GPT 类)和完整编码器-解码器架构各有什么优缺点?
  • 为什么说 Transformer 的自注意力机制相对于早期 RNN 中的注意力机制是一个显著的进步?
  • 大语言模型为什么有最长上下文长度的概念?为什么它是指输入和输出的总长度?
  • 大语言模型的首字延迟、输入吞吐量、输出吞吐量分别是如何计算的?不同应用场景对首字延迟、输入和输出吞吐量的需求分别是什么?
  • 预训练和微调的两步范式为什么如此重要?基础模型通过预训练获得了哪些核心能力?微调在引导模型遵循指令、回答问题和对齐人类价值观方面起到什么作用?
  • LLaMA-3 8B 的综合能力比 LLaMA-1 70B 的能力还强,是如何做到的?
Read More
RSS