Page 4 | Bojie Li

2025-07-12

巧用香港中转，搭建丝滑稳定的中美三层隧道

在之前的文章《搭建全程美国 IP、无需手动设置代理的三层隧道》中，我们通过 国内服务器 -> 美国服务器 的架构，解决了访问全球服务时遇到的诸多网络问题。但一个新的性能瓶颈逐渐显现：国内服务器与美国服务器之间的公网连接，在高峰时段延迟高、丢包严重。

这导致即便我们使用了隧道，依然会遇到 SSH 操作卡顿、在线会议掉线、API 请求超时等问题。根本原因在于中美之间的国际互联网链路，如同一条节假日的高速公路，拥堵是常态。

面对这个问题，一个反直觉的解决方案浮出水面：如果直路不通，我们绕路走会不会更快？

2025-07-10

中关村人工智能学院 & 国科大 2025 暑期 AI Agent 实践课题

2025 年 2 月在国科大的 AI Agent Hackathon 非常成功，因此 2025 年 7 月 27 日至 30 日在中关村人工智能学院，7 月 31 日至 8 月 4 日在国科大，我将再次 host 两个 AI Agent 实践课题。

非常感谢中关村人工智能学院副院长郑书新老师、国科大刘俊明老师邀请我来 host 这两场 AI Agent 实践活动。

本次 AI Agent 实践的所有课题将带你深入探索构建下一代 AI Agent 的前沿技术。你将有机会亲手实践：

多模态模型、思考模型应用：以 Gemini 2.5 Pro、Claude 4 Sonnet 等业界领先的多模态模型和思考模型为核心，构建智能体的 “大脑”。
实时语音交互：整合 VAD、ASR、LLM、TTS 技术栈，打造能够流式对话的实时语音 Agent。
自主操作图形界面：开发能稳定操作浏览器等 GUI 的 Agent，完成真实世界的复杂任务。
高级 Agent 架构：探索 “快慢思考”、“边听边想”、多智能体协同等先进架构，让 Agent 兼具实时响应和深入思考的能力。
从经验中学习：构建能从经验中学习的 Agent，让它在重复任务中 “越做越熟练”。
识别权威信息源：让 Agent 能在海量信息中，精准识别并采纳官方文档、学术论文等高可信度的信息。
自主工具调用与创造：让 Agent 不仅能使用现有工具，更能自主学习并创造新工具来解决开放性问题。

关于 AI 辅助编程的建议： 在本次 AI Agent 实践中，我们鼓励大家使用 AI 辅助编程，也就是 “用 Agent 开发 Agent”。我们推荐使用 Cursor 进行 Vibe Coding，这里有一些建议：

文档先行，代码后上：先让 Cursor 写设计文档。你的角色是针对 AI 生成的设计文档提出改进意见，和 AI 一起迭代，直到满意为止。然后，再让 Cursor 按照最终的设计文档来写代码。在编码过程中，始终将设计文档放在 Agent 的上下文中作为参考。
选对模型：不要用 Cursor 的 “auto” 模式，一定要选择带思考能力的模型（旁边有一个大脑图标的），例如 Claude 4 Sonnet。
测试驱动：一定要让 AI 为它写的代码编写并执行测试用例，确保代码质量。

请自由组队，从以下课题中任选其一，开启你的创造之旅！

2025-07-10

国科大 2025 春季 AI Agent 实践课题

AI Agent 实践课程是国科大刘俊明老师和我一起开展的实践课程，2024 年第一届有 50+ 名同学参加，2025 年第二届有 100+ 名同学参加。2025 年春季 AI Agent 实践课题于 2025 年 2 月初在北京进行。

课题目录：

课题一：互动小说
课题二：语音狼人杀
课题三：情报搜集专家
课题四：论文视频讲解
课题五：多模态AI助手

我们是谁？

Pine AI 致力于用 AI 帮助用户处理日常琐事和争议。

在美国，打客服电话通常是一件很麻烦的事情。你可能需要先等待半小时，然后花很长时间和客服沟通。如果客服不愿意帮你处理，你可能还会被转接到其他部门。整个流程下来，一个电话有时会耗费一两个小时。对很多人来说，并没有这么多时间去跟客服扯皮，有时候就吃了哑巴亏。还有一些人英语口语不够好，打电话沟通也很费劲。

Pine AI 正在打造能言善辩、知识渊博、记忆超群的 AI Agent，可以自动化地帮你完成这整个流程，让 AI 能打电话、发邮件、用电脑，像人类秘书一样为你办事。

这绝对不是 SOTA 模型套上一个 prompt 这么简单。我们正在寻找优秀的你，一起来挑战这个世界级的难题。

2025-06-30

我和孟佳颖的译著《图解 DeepSeek 技术》即将上市

2025-04-28

搭建本地防污染 DNS 实现国内外网站智能分流

本文介绍了一种轻量级智能 DNS 分流解决方案，通过在本地搭建 Python DNS 服务器，同时查询国内外上游 DNS 并智能判断结果，有效避免 DNS 污染问题，同时保证国内网站获得最佳的本地解析结果。这种方案无需维护复杂的域名列表，能自动适应网络环境变化，为用户提供无缝的上网体验。

整体架构如下：

                                   +------------------------+
                                   |  应用程序 DNS 请求       |
                                   +------------------------+
                                              |
                                              V
+----------------+    +------------------------------------------------+
|                |    |      轻量级 Python DNS 服务器 (53 端口)           |
|  中国 IP 地址库  |--->|      同时查询国内外DNS，智能判断最佳响应            |
|                |    +------------------------------------------------+
+----------------+                  /                  \
                                   /                    \
                          +------------------+    +------------------+
                          | 国内 DNS 服务器    |    | 国外 DNS 服务器   |
                          | (114.114.114.114)|    | (1.1.1.1)        |
                          +------------------+    +------------------+

2025-04-27

我的译作《图解大模型——生成式 AI 原理与实战》已经上市

【感谢各位读者朋友发来的超过 50 条勘误！读者朋友们真的非常细心，发现了这么多错误，非常感谢指正！】

我的译作《图解大模型——生成式 AI 原理与实战》（Hands-On Large Language Models）已经于 2025 年 5 月上市，在京东、淘宝等平台上搜索 “图解大模型” 即可。

对本书的赞誉（中文版）

非常感谢硅基流动创始人袁进辉老师、微软亚洲研究院院长周礼栋老师、阿里巴巴 Qwen 算法负责人林俊旸老师、CAMEL-AI.org 社区创始人李国豪老师、特工宇宙（AgentUniverse）创始人仲泰老师倾力推荐！

译者序

大模型发展迅速，可谓 “AI 一天，人间一年”。很多人在百花齐放的模型花园中迷失了方向，不知道手头的应用场景应该用什么模型，也无法预判未来一年模型的发展方向，时常陷入焦虑。其实，如今几乎所有大模型都是基于 Transformer 架构的，万变不离其宗。

而《图解大模型》这本书正是帮你系统了解 Transformer 和大模型的基本原理和能力边界的绝佳资料。当图灵公司找到我翻译这本书时，我看到作者的名字就第一时间答应了，因为我当年就是读了 Jay Alammar 的 “The Illustrated Transformer” 这篇博客文章才真正弄懂 Transformer 的（本书第 3 章就是由这篇博客文章扩展而来的）。如今市面上讲解大模型的图书和文章浩如烟海，但本书的插图之精美、讲解之深入浅出是罕见的。本书从词元和嵌入讲起，不局限于生成模型，还包括很多人忽视的表示模型。此外，书中还包括文本分类、文本聚类、提示工程、RAG、模型微调等实用内容。

我非常荣幸成为这本书的译者，与编辑刘美英老师一起合作，把这本书带给中国读者。

花些时间读一下本书，系统地了解 Transformer 和大模型的基本原理和能力边界，就如同在大模型的探险之旅中拥有了地图和指南针。这样，我们不但不会担心新发布的模型一夜之间让长期的工程积累变得无用，还可以为未来的模型开发产品。模型能力一旦就绪，产品就可以马上起量。

希望本书能够成为大模型花园的观光巴士，让更多人看到大模型的全景。这样，大模型不断扩展的能力边界就是一场视觉盛宴，而非吞噬一切的怪兽；我们就有机会站在 AI 的潮头，实现更多梦想，获得更多自由。

2025-04-27

《图解大模型》配套阅读——大模型面试题 200 问

本文是《图解大模型——生成式 AI 原理与实战》一书的配套资料。

我在面试候选人和参加业内研讨会时，常常发现很多人有大量实战经验，但对模型的基本原理知之甚少。为了帮助大家更好地理解本书，也为了方便部分有面试需求的朋友更有针对性地阅读本书，围绕本书各章主题，我系统梳理了大模型领域常见的面试题。其中的大多数问题都可以在书中直接找到答案，部分进阶问题可以从本书的参考文献或网络上的最新论文中找到答案。希望所有的朋友都能够带着这些问题阅读本书。

第一章：大语言模型入门

Transformer 中的编码器和解码器有什么区别，只有编码器或者只有解码器的模型是否有用？
GPT 跟原始 Transformer 论文的模型架构有什么区别？
仅编码器（BERT 类）、仅解码器（GPT 类）和完整编码器-解码器架构各有什么优缺点？
为什么说 Transformer 的自注意力机制相对于早期 RNN 中的注意力机制是一个显著的进步？
大语言模型为什么有最长上下文长度的概念？为什么它是指输入和输出的总长度？
大语言模型的首字延迟、输入吞吐量、输出吞吐量分别是如何计算的？不同应用场景对首字延迟、输入和输出吞吐量的需求分别是什么？
预训练和微调的两步范式为什么如此重要？基础模型通过预训练获得了哪些核心能力？微调在引导模型遵循指令、回答问题和对齐人类价值观方面起到什么作用？
LLaMA-3 8B 的综合能力比 LLaMA-1 70B 的能力还强，是如何做到的？

2025-04-25

为隧道连接禁用 TCP 拥塞控制，提升传输效率

在构建跨地域服务器网络时，例如《搭建全程美国 IP、无需手动设置代理的三层隧道》一文中使用的 VLESS 连接，我们常常会遇到一个效率问题：TCP 协议本身的拥塞控制机制。虽然 TCP 拥塞控制对于公共互联网至关重要，但在已经封装了应用层协议（可能自带流控或拥塞处理）的隧道场景下，外层 TCP 的拥塞控制反而成了累赘。

为什么要在隧道中禁用 TCP 拥塞控制和 Nagle？

TCP-over-TCP 问题：当你在一个 TCP 连接（例如 VLESS over TCP）内部传输另一个 TCP 连接的数据时，就会出现所谓的 “TCP-over-TCP” 问题。内层 TCP 和外层 TCP 都有自己的拥塞控制和重传机制。当发生丢包时，两个层级的 TCP 都会尝试重传，并且都会缩减拥塞窗口。这种双重处理不仅冗余，而且会导致性能急剧下降，尤其是在高延迟、高丢包的跨国链路上。内层 TCP 的重传计时器可能会因为外层 TCP 的延迟和重传而过早触发，反之亦然，形成恶性循环。此外，TCP-over-TCP 还会导致严重的队头阻塞（Head-of-Line Blocking）问题：外层 TCP 丢失的一个数据包会阻塞其中包含的所有内层连接的数据，即使这些内层连接完全不相关。这意味着一个用户的连接问题可能会影响到共享同一隧道的其他用户。
应用层已有流控：隧道中传输的应用层协议可能已经实现了自己的流量控制和可靠性机制。在这种情况下，底层 TCP 的拥塞控制完全是多余的，它只会干扰上层协议的正常工作，限制其性能潜力。
Nagle 算法的延迟：Nagle 算法旨在通过将小的 TCP 数据包聚合成一个较大的数据包来减少网络中的小包数量，从而提高网络利用率。然而，在隧道场景中，我们通常希望数据能够尽快通过隧道传输，尤其是对于交互式应用（如 SSH）或实时性要求高的应用。Nagle 算法引入的延迟可能会对这些应用造成负面影响。禁用 Nagle（通过 TCP_NODELAY 选项）可以让小数据包立即发送，降低延迟。
UDP 在公共互联网上的困境：你可能会想，既然 TCP 这么多问题，为什么不直接用 UDP 建立隧道连接？不幸的是，UDP 在公共互联网，尤其是跨国链路上，经常受到运营商 QoS（服务质量）策略的限制，优先级较低，更容易被丢弃或限速，导致连接不稳定。因此，在很多情况下，我们不得不选择 TCP 作为隧道传输层协议，这就需要我们想办法优化 TCP 的行为。

因此，对于服务器之间的隧道连接（特别是跨地域连接），禁用外层 TCP 的拥塞控制和 Nagle 算法，可以显著提高隧道的吞吐量和响应速度。

解决方案：一个脚本

2025-04-01

AI Agent 新探索：构建 AI 原生团队，使能 AI 员工

【本文是笔者在 2025 中国生成式 AI 大会的主旨演讲，演讲内容是笔者与 AI 头脑风暴 2 小时的结果，然后在 Cursor 中与 AI 协作工作 3 个小时精修内容】

内容概要：一些团队在实际应用 AI 编程、 AI 写作时，发现效率提升并没有想象中的大。究其原因，往往是大量的知识仅在特定员工的头脑中，并未文档化，因此 AI Agent 就像一个新来的实习生，很难编写代码，就算是写出了代码，也不知道该如何测试。另一个原因是项目管理等内部工具只能通过 GUI 操作，对 AI Agent 不友好。如今文本推理模型的能力已经达到人类水平，不能完成任务往往是因为缺少背景知识和对 AI 友好的工具。

我们将从软件开发、项目管理、运营三个方面，讲解如何构建一个对 AI Agent 友好的 AI 原生团队。 AI 原生团队需要像开源社区一样，尽量使用有记录的语音和书面沟通，减少对人的单点依赖。 AI Agent 需要能够通过 MCP 访问公司内部的各种工具，有足够的上下文信息和测试环境高效工作。 AI Agent 需要记忆压缩机制、反思机制和检查点回溯机制，才能在无需人类干预的情况下持续工作一晚上，每个小时都产生有用进展。 AI 员工也需要与人类员工和其他 AI 员工主动沟通。这样，人类员工的大多数时间就可以用来做思考和讨论，而大多数重复性的执行工作就交给 AI。

《AI Agent 新探索：构建 AI 原生团队，使能 AI 员工》 PPT 下载（PDF）

以下是演讲全文：（PPT 是 2025 中国生成式 AI 大会上所用的版本，但文字说明并非实录，是笔者与 AI 头脑风暴生成的扩展版本）：

封面页

RSS

Bojie Li (李博杰)

2025-07-12

巧用香港中转，搭建丝滑稳定的中美三层隧道

2025-07-10

中关村人工智能学院 & 国科大 2025 暑期 AI Agent 实践课题

2025-07-10

国科大 2025 春季 AI Agent 实践课题

2025-07-08

科大学长天团亲自带，Pine AI 实习/全职招聘

我们是谁？

2025-06-30

我和孟佳颖的译著《图解 DeepSeek 技术》即将上市

2025-04-28

搭建本地防污染 DNS 实现国内外网站智能分流

2025-04-27

我的译作《图解大模型——生成式 AI 原理与实战》已经上市

对本书的赞誉（中文版）

译者序

2025-04-27

《图解大模型》配套阅读——大模型面试题 200 问

第一章：大语言模型入门

2025-04-25

为隧道连接禁用 TCP 拥塞控制，提升传输效率

为什么要在隧道中禁用 TCP 拥塞控制和 Nagle？

解决方案：一个脚本

2025-04-01

AI Agent 新探索：构建 AI 原生团队，使能 AI 员工

封面页

Mastodon

Links

Bojie Li (李博杰)

2025-07-12 巧用香港中转，搭建丝滑稳定的中美三层隧道

2025-07-10 中关村人工智能学院 & 国科大 2025 暑期 AI Agent 实践课题

2025-07-10 国科大 2025 春季 AI Agent 实践课题

2025-07-08 科大学长天团亲自带，Pine AI 实习/全职招聘

我们是谁？

2025-06-30 我和孟佳颖的译著《图解 DeepSeek 技术》即将上市

2025-04-28 搭建本地防污染 DNS 实现国内外网站智能分流

2025-04-27 我的译作《图解大模型——生成式 AI 原理与实战》已经上市

对本书的赞誉（中文版）

译者序

2025-04-27 《图解大模型》配套阅读——大模型面试题 200 问

第一章：大语言模型入门

2025-04-25 为隧道连接禁用 TCP 拥塞控制，提升传输效率

为什么要在隧道中禁用 TCP 拥塞控制和 Nagle？

解决方案：一个脚本

2025-04-01 AI Agent 新探索：构建 AI 原生团队，使能 AI 员工

封面页

Mastodon

Links

2025-07-12

巧用香港中转，搭建丝滑稳定的中美三层隧道

2025-07-10

中关村人工智能学院 & 国科大 2025 暑期 AI Agent 实践课题

2025-07-10

国科大 2025 春季 AI Agent 实践课题

2025-07-08

科大学长天团亲自带，Pine AI 实习/全职招聘

2025-06-30

我和孟佳颖的译著《图解 DeepSeek 技术》即将上市

2025-04-28

搭建本地防污染 DNS 实现国内外网站智能分流

2025-04-27

我的译作《图解大模型——生成式 AI 原理与实战》已经上市

2025-04-27

《图解大模型》配套阅读——大模型面试题 200 问

2025-04-25

为隧道连接禁用 TCP 拥塞控制，提升传输效率

2025-04-01

AI Agent 新探索：构建 AI 原生团队，使能 AI 员工