Bojie Li

2025-08-03

又一道 Vibe Coding 面试题：基于注意力的 LLM 幻觉检测器

继《用 Vibe Coding 解决 LLM 限制采样的面试题》之后，再分享我司（Pine AI）一道关于 LLM 基础原理的 Vibe Coding 面试题。

很多人对 Vibe Coding 有个误解，以为就是不断地问 AI “这个怎么做？那个怎么实现？”。这种方式注定会失败。真正的 Vibe Coding，你必须是架构师和产品经理，像老师指导学生一样去引导 AI，而不是反过来。

这道面试题考察候选人对 Transformer 基本原理的理解和 vibe coding 快速实现的工程能力。这就是我们需要的人：懂模型，并且工程能力强。

The Challenge: 基于注意力的 LLM 幻觉检测器

1. 背景与问题 (Background & Problem Statement)

在许多应用场景中，大语言模型（LLM）需要基于一份给定的上下文（Context）来回答问题或提取信息，这个过程通常被称为“上下文学习”（In-Context Learning）。然而，LLM 存在一个已知的、严重的安全隐患：当被问及一个上下文中不存在的信息时，它可能会“幻觉”（Hallucinate）出一个格式正确但事实错误的答案，而非承认信息的缺失。

2025-07-30

从提示工程到上下文工程：写好 Agent 的秘诀

【本文是在图灵社区大模型技术共学营的演讲，Slides 链接】

深入探索 AI Agent 的设计哲学与实践策略。从 Chatbot 的对话模式到 Agent 的行动模式，系统性地设计和管理 Agent 的信息环境，构建高效、可靠的 AI Agent 系统。

Part 1: 范式变迁 - 从 Chatbot 到 Agent

从 Chatbot 到 Agent：范式的根本转变

我们正在经历 AI 交互模式的根本性转变：

Chatbot 时代

🗣️ 对话式交互：用户提问 → AI 回答 → 循环往复的问答模式
📚 知识渊博的顾问：只能”说”不能”做”，被动响应用户需求
🛠️ 典型产品：ChatGPT、Claude Chat

Agent 时代

🎯 自主行动模式：用户设定目标 → Agent 执行 → 自主规划和决策
💪 能干的助手：既能”想”也能”做”，主动发现和解决问题
🚀 典型产品：Claude Code、Cursor、Manus

2025-07-25

OpenRouter、Anthropic、火山引擎、Siliconflow 使用指南

在 AI 应用开发中，选择合适的 LLM API 服务至关重要。无论你是在构建智能对话系统、开发 AI Agent，还是参加 AI Hackathon，本文都将为你提供全面的 API 使用指南，涵盖 OpenRouter、Anthropic API、火山引擎和 Siliconflow 等主流服务。

为什么需要多个 API 服务？

不同的 LLM 模型有各自的优势，特别是在开发 AI Agent 时，需要根据具体场景选择合适的模型：

Claude（Anthropic）：擅长复杂推理、编程和 Agent 任务，特别适合需要深度思考的场景
Gemini（Google）：在长文本处理、多模态理解方面表现出色，适合处理图片、视频等多媒体内容
GPT（OpenAI）：图片理解和数学推理能力强，日常对话体验优秀
豆包（字节跳动）：国内访问速度快，语音对话体验好，特别适合实时交互场景
开源模型：成本低，可定制性强，适合大规模部署

2025-07-21

AI，我们自由的“多巴胺引擎”：挣脱生存引力，构建价值星辰

（本文是根据我跟 Gemini 2.5 Pro 一个小时的语音聊天，全自动生成的）

人类对自由的追求，是一场与内心深处生物本能的深刻对话。在展开这场对话之前，我们必须先理解 “自由” 的两种核心面貌，正如哲学家以赛亚·伯林所阐述的：

第一种，是“免于……的自由”（Freedom From），即消极自由。它致力于摆脱外部的束缚、强制与干涉。这是为我们的人生划定一个神圣的、不受侵犯的“空间”，其终极形态是财务自由——你免于为生计而出卖劳动的强制。
第二种，是“去做……的自由”（Freedom To），即积极自由。它追求的是成为自己意志的主人，拥有足够的能力与资源去实现自我价值。这是赋予我们行动的“力量”，其终极形态是创造自由——你能够将想象变为现实。

理解了这对概念，我们才能洞察一个更深层的秘密，这个秘密由 2025 年图灵奖得主、强化学习之父 Richard Sutton 在其经典教科书《强化学习》中揭示：驱动我们快乐的，并非静态的 “奖励” 本身，而是动态的 “奖励预测误差” 。真正让我们的大脑分泌多巴胺、感受到快乐的，是 “实际所得” 与 “先前预期” 之间的正向差距。

一个完全可预测的、没有惊喜的世界，无论多么富足，其奖励预测误差都趋近于零。这从生物学上解释了为何纯粹的 “Freedom From”——一个安逸、无忧但一成不变的港湾——最终可能导致空虚。相反，充满挑战、探索与创造的 “Freedom To”，则是一个持续产生正向预测误差的强大引擎。

今天，AI 的崛起，正以前所未有的方式，将这个引擎的钥匙交到我们每一个人手中。

2025-07-18

搭建免安装客户端的 IKEv2 隧道，解决 Cursor 地区限制

（感谢 Koutian Wu 师弟完整的调试部署，并在评论中指出原版文章中的几处技术问题，文中已经修正）

随着 Cursor、Claude Code 等工具在中国的访问受限，传统的 HTTP/SOCKS 代理已经无法满足日常需求。这些工具不仅在服务端进行了地区限制，还可能采用多层次的技术手段来检测用户的真实地理位置（当前仅采用一部分，未来可能升级）：

基础 IP 数据库匹配：传统的 GeoIP 数据库查询
时区一致性检测：通过 JavaScript 获取客户端时区，与 IP 地理位置进行交叉验证
DNS 解析检查：利用 Geo DNS 解析结果检查真实位置
WebRTC IP 泄露检测：通过 WebRTC 获取用户真实 IP 地址
CloudFlare 源地址获取：通过 CloudFlare 的 HTTP 头信息获取真实源地址

目前大多数 HTTP/SOCKS 代理只能应对基础检测方式，而对于更复杂的多维度检测往往无能为力。三层隧道由于工作在网络层，能够更彻底地隐藏用户的真实网络环境。

除了绕过地理位置限制，三层隧道还适用于以下场景：

服务器访问控制：避免把公司服务器的 SSH 访问端口暴露在公共互联网上
开发测试环境：避免把公司的测试服务器、内部 API 等暴露在公共互联网上
安全网络环境：在不受信任的公共 WiFi 环境下，确保通信安全

虽然 WireGuard、OpenVPN 等方案稳定高效，但需要安装专用客户端，在多设备使用场景下略显繁琐。

IKEv2 作为现代化的 VPN 标准，不仅具备出色的性能和稳定性，更重要的是，它已经原生集成在 macOS、Windows、iOS、Android 等主流操作系统中，无需安装任何第三方客户端。

本文将基于《巧用香港中转，搭建丝滑稳定的中美三层隧道》的架构思路，构建一个 国内 -> 香港 -> 美国 的 IKEv2 隧道三级跳方案。

2025-07-15

用 Vibe Coding 解决 LLM 限制采样的面试题

这是我司的一道面试题。

有人说我们的 Vibe Coding 编程题太难了，其实我司的 2 小时 Vibe Coding 面试题都基本不需要自己写代码。只要把题输到 prompt 里面，跟 LLM 持续交互提需求和改进方向，AI 就给你自己做完了。

为什么叫 Vibe Coding？就是让你尽量少直接写代码。人和 AI 的分工变得非常明确：人负责把控方向、定义问题、审查结果，而 AI 负责具体的实现。像 Claude Code 这种就是一个极致，人不准动代码，只有 LLM 能动代码。

下面，我将通过这道面试题的完整经历，来展示 Vibe Coding 是如何运作的。这整个探索过程并非一帆风顺，AI 的初期方案存在严重缺陷。正是通过我不断的审查和方向修正，我们才最终抵达了那个可用的解决方案。这不仅是关于一个技术问题的解答，更是一次关于未来软件开发模式的深度探索。

值得一提的是，这篇文章本身，也是我在 Cursor 中，让 Gemini 2.5 Pro 根据我的工作日志（包含我与 AI 的所有对话、代码的演进过程）自动生成的。从我开始向 Cursor 提出最初的问题，到完成最终可用的程序，再到生成这篇图文并茂的博客文章，整个过程仅花费了 1.5 小时。

The Challenge: LLM 限制采样

一个学英语的软件需要保证其内置的 LLM 输出的所有单词都必须在一个 3000 词的词库范围内。

要求：

使用大语言模型（LLM）的限制采样（Constrained Sampling）方法，修改推理框架（如 transformers）中的 token 采样算法，保证 LLM 输出的所有内容都在这个给定的 3000 词的词库范围内。
当然，要允许输出标点符号、空格、换行等，但不允许输出特殊字符、中文、法语、表情符号等。
词库中单词的大小写变换都认为是合法的单词，例如词库中有 apple 一词，那么 apple、Apple、APPLE 都认为是合法的输出。
3000 词的词库可以从网上随便找一个常见英语单词表。
要求限制采样算法性能尽可能好。

2025-07-12

巧用香港中转，搭建丝滑稳定的中美三层隧道

在之前的文章《搭建全程美国 IP、无需手动设置代理的三层隧道》中，我们通过 国内服务器 -> 美国服务器 的架构，解决了访问全球服务时遇到的诸多网络问题。但一个新的性能瓶颈逐渐显现：国内服务器与美国服务器之间的公网连接，在高峰时段延迟高、丢包严重。

这导致即便我们使用了隧道，依然会遇到 SSH 操作卡顿、在线会议掉线、API 请求超时等问题。根本原因在于中美之间的国际互联网链路，如同一条节假日的高速公路，拥堵是常态。

面对这个问题，一个反直觉的解决方案浮出水面：如果直路不通，我们绕路走会不会更快？

2025-07-10

中关村人工智能学院 & 国科大 2025 暑期 AI Agent 实践课题

2025 年 2 月在国科大的 AI Agent Hackathon 非常成功，因此 2025 年 7 月 27 日至 30 日在中关村人工智能学院，7 月 31 日至 8 月 4 日在国科大，我将再次 host 两个 AI Agent 实践课题。

非常感谢中关村人工智能学院副院长郑书新老师、国科大刘俊明老师邀请我来 host 这两场 AI Agent 实践活动。

本次 AI Agent 实践的所有课题将带你深入探索构建下一代 AI Agent 的前沿技术。你将有机会亲手实践：

多模态模型、思考模型应用：以 Gemini 2.5 Pro、Claude 4 Sonnet 等业界领先的多模态模型和思考模型为核心，构建智能体的 “大脑”。
实时语音交互：整合 VAD、ASR、LLM、TTS 技术栈，打造能够流式对话的实时语音 Agent。
自主操作图形界面：开发能稳定操作浏览器等 GUI 的 Agent，完成真实世界的复杂任务。
高级 Agent 架构：探索 “快慢思考”、“边听边想”、多智能体协同等先进架构，让 Agent 兼具实时响应和深入思考的能力。
从经验中学习：构建能从经验中学习的 Agent，让它在重复任务中 “越做越熟练”。
识别权威信息源：让 Agent 能在海量信息中，精准识别并采纳官方文档、学术论文等高可信度的信息。
自主工具调用与创造：让 Agent 不仅能使用现有工具，更能自主学习并创造新工具来解决开放性问题。

关于 AI 辅助编程的建议： 在本次 AI Agent 实践中，我们鼓励大家使用 AI 辅助编程，也就是 “用 Agent 开发 Agent”。我们推荐使用 Cursor 进行 Vibe Coding，这里有一些建议：

文档先行，代码后上：先让 Cursor 写设计文档。你的角色是针对 AI 生成的设计文档提出改进意见，和 AI 一起迭代，直到满意为止。然后，再让 Cursor 按照最终的设计文档来写代码。在编码过程中，始终将设计文档放在 Agent 的上下文中作为参考。
选对模型：不要用 Cursor 的 “auto” 模式，一定要选择带思考能力的模型（旁边有一个大脑图标的），例如 Claude 4 Sonnet。
测试驱动：一定要让 AI 为它写的代码编写并执行测试用例，确保代码质量。

请自由组队，从以下课题中任选其一，开启你的创造之旅！

2025-07-10

国科大 2025 春季 AI Agent 实践课题

AI Agent 实践课程是国科大刘俊明老师和我一起开展的实践课程，2024 年第一届有 50+ 名同学参加，2025 年第二届有 100+ 名同学参加。2025 年春季 AI Agent 实践课题于 2025 年 2 月初在北京进行。

课题目录：

课题一：互动小说
课题二：语音狼人杀
课题三：情报搜集专家
课题四：论文视频讲解
课题五：多模态AI助手

我们是谁？

Pine AI 致力于用 AI 帮助用户处理日常琐事和争议。

在美国，打客服电话通常是一件很麻烦的事情。你可能需要先等待半小时，然后花很长时间和客服沟通。如果客服不愿意帮你处理，你可能还会被转接到其他部门。整个流程下来，一个电话有时会耗费一两个小时。对很多人来说，并没有这么多时间去跟客服扯皮，有时候就吃了哑巴亏。还有一些人英语口语不够好，打电话沟通也很费劲。

Pine AI 正在打造能言善辩、知识渊博、记忆超群的 AI Agent，可以自动化地帮你完成这整个流程，让 AI 能打电话、发邮件、用电脑，像人类秘书一样为你办事。

这绝对不是 SOTA 模型套上一个 prompt 这么简单。我们正在寻找优秀的你，一起来挑战这个世界级的难题。

RSS

Bojie Li (李博杰)

2025-08-03

又一道 Vibe Coding 面试题：基于注意力的 LLM 幻觉检测器

The Challenge: 基于注意力的 LLM 幻觉检测器

1. 背景与问题 (Background & Problem Statement)

2025-07-30

从提示工程到上下文工程：写好 Agent 的秘诀

目录

Part 1: 范式变迁 - 从 Chatbot 到 Agent

从 Chatbot 到 Agent：范式的根本转变

2025-07-25

OpenRouter、Anthropic、火山引擎、Siliconflow 使用指南

为什么需要多个 API 服务？

2025-07-21

AI，我们自由的“多巴胺引擎”：挣脱生存引力，构建价值星辰

2025-07-18

搭建免安装客户端的 IKEv2 隧道，解决 Cursor 地区限制

2025-07-15

用 Vibe Coding 解决 LLM 限制采样的面试题

The Challenge: LLM 限制采样

2025-07-12

巧用香港中转，搭建丝滑稳定的中美三层隧道

2025-07-10

中关村人工智能学院 & 国科大 2025 暑期 AI Agent 实践课题

2025-07-10

国科大 2025 春季 AI Agent 实践课题

2025-07-08

科大学长天团亲自带，Pine AI 实习/全职招聘

我们是谁？

Mastodon

Links

Bojie Li (李博杰)

2025-08-03 又一道 Vibe Coding 面试题：基于注意力的 LLM 幻觉检测器

The Challenge: 基于注意力的 LLM 幻觉检测器

1. 背景与问题 (Background & Problem Statement)

2025-07-30 从提示工程到上下文工程：写好 Agent 的秘诀

目录

Part 1: 范式变迁 - 从 Chatbot 到 Agent

从 Chatbot 到 Agent：范式的根本转变

2025-07-25 OpenRouter、Anthropic、火山引擎、Siliconflow 使用指南

为什么需要多个 API 服务？

2025-07-21 AI，我们自由的“多巴胺引擎”：挣脱生存引力，构建价值星辰

2025-07-18 搭建免安装客户端的 IKEv2 隧道，解决 Cursor 地区限制

2025-07-15 用 Vibe Coding 解决 LLM 限制采样的面试题

The Challenge: LLM 限制采样

2025-07-12 巧用香港中转，搭建丝滑稳定的中美三层隧道

2025-07-10 中关村人工智能学院 & 国科大 2025 暑期 AI Agent 实践课题

2025-07-10 国科大 2025 春季 AI Agent 实践课题

2025-07-08 科大学长天团亲自带，Pine AI 实习/全职招聘

我们是谁？

Mastodon

Links

2025-08-03

又一道 Vibe Coding 面试题：基于注意力的 LLM 幻觉检测器

2025-07-30

从提示工程到上下文工程：写好 Agent 的秘诀

2025-07-25

OpenRouter、Anthropic、火山引擎、Siliconflow 使用指南

2025-07-21

AI，我们自由的“多巴胺引擎”：挣脱生存引力，构建价值星辰

2025-07-18

搭建免安装客户端的 IKEv2 隧道，解决 Cursor 地区限制

2025-07-15

用 Vibe Coding 解决 LLM 限制采样的面试题

2025-07-12

巧用香港中转，搭建丝滑稳定的中美三层隧道

2025-07-10

中关村人工智能学院 & 国科大 2025 暑期 AI Agent 实践课题

2025-07-10

国科大 2025 春季 AI Agent 实践课题

2025-07-08

科大学长天团亲自带，Pine AI 实习/全职招聘