2025-07-25
OpenRouter、Anthropic、火山引擎、Siliconflow 使用指南

在 AI 应用开发中,选择合适的 LLM API 服务至关重要。无论你是在构建智能对话系统、开发 AI Agent,还是参加 AI Hackathon,本文都将为你提供全面的 API 使用指南,涵盖 OpenRouter、Anthropic API、火山引擎和 Siliconflow 等主流服务。

为什么需要多个 API 服务?

不同的 LLM 模型有各自的优势,特别是在开发 AI Agent 时,需要根据具体场景选择合适的模型:

  • Claude(Anthropic):擅长复杂推理、编程和 Agent 任务,特别适合需要深度思考的场景
  • Gemini(Google):在长文本处理、多模态理解方面表现出色,适合处理图片、视频等多媒体内容
  • GPT(OpenAI):图片理解和数学推理能力强,日常对话体验优秀
  • 豆包(字节跳动):国内访问速度快,语音对话体验好,特别适合实时交互场景
  • 开源模型:成本低,可定制性强,适合大规模部署
Read More

2025-07-21
AI,我们自由的“多巴胺引擎”:挣脱生存引力,构建价值星辰

(本文是根据我跟 Gemini 2.5 Pro 一个小时的语音聊天,全自动生成的)

人类对自由的追求,是一场与内心深处生物本能的深刻对话。在展开这场对话之前,我们必须先理解 “自由” 的两种核心面貌,正如哲学家以赛亚·伯林所阐述的:

  • 第一种,是“免于……的自由”(Freedom From),即消极自由。它致力于摆脱外部的束缚、强制与干涉。这是为我们的人生划定一个神圣的、不受侵犯的“空间”,其终极形态是财务自由——你免于为生计而出卖劳动的强制。
  • 第二种,是“去做……的自由”(Freedom To),即积极自由。它追求的是成为自己意志的主人,拥有足够的能力与资源去实现自我价值。这是赋予我们行动的“力量”,其终极形态是创造自由——你能够将想象变为现实。

理解了这对概念,我们才能洞察一个更深层的秘密,这个秘密由 2025 年图灵奖得主、强化学习之父 Richard Sutton 在其经典教科书《强化学习》中揭示:驱动我们快乐的,并非静态的 “奖励” 本身,而是动态的 “奖励预测误差” 。真正让我们的大脑分泌多巴胺、感受到快乐的,是 “实际所得” 与 “先前预期” 之间的正向差距

一个完全可预测的、没有惊喜的世界,无论多么富足,其奖励预测误差都趋近于零。这从生物学上解释了为何纯粹的 “Freedom From”——一个安逸、无忧但一成不变的港湾——最终可能导致空虚。相反,充满挑战、探索与创造的 “Freedom To”,则是一个持续产生正向预测误差的强大引擎。

今天,AI 的崛起,正以前所未有的方式,将这个引擎的钥匙交到我们每一个人手中。

Read More

2025-07-18
搭建免安装客户端的 IKEv2 隧道,解决 Cursor 地区限制

(感谢 Koutian Wu 师弟完整的调试部署,并在评论中指出原版文章中的几处技术问题,文中已经修正)

随着 Cursor、Claude Code 等工具在中国的访问受限,传统的 HTTP/SOCKS 代理已经无法满足日常需求。这些工具不仅在服务端进行了地区限制,还可能采用多层次的技术手段来检测用户的真实地理位置(当前仅采用一部分,未来可能升级):

  1. 基础 IP 数据库匹配:传统的 GeoIP 数据库查询
  2. 时区一致性检测:通过 JavaScript 获取客户端时区,与 IP 地理位置进行交叉验证
  3. DNS 解析检查:利用 Geo DNS 解析结果检查真实位置
  4. WebRTC IP 泄露检测:通过 WebRTC 获取用户真实 IP 地址
  5. CloudFlare 源地址获取:通过 CloudFlare 的 HTTP 头信息获取真实源地址

目前大多数 HTTP/SOCKS 代理只能应对基础检测方式,而对于更复杂的多维度检测往往无能为力。三层隧道由于工作在网络层,能够更彻底地隐藏用户的真实网络环境。

除了绕过地理位置限制,三层隧道还适用于以下场景:

  1. 服务器访问控制:避免把公司服务器的 SSH 访问端口暴露在公共互联网上
  2. 开发测试环境:避免把公司的测试服务器、内部 API 等暴露在公共互联网上
  3. 安全网络环境:在不受信任的公共 WiFi 环境下,确保通信安全

虽然 WireGuard、OpenVPN 等方案稳定高效,但需要安装专用客户端,在多设备使用场景下略显繁琐。

IKEv2 作为现代化的 VPN 标准,不仅具备出色的性能和稳定性,更重要的是,它已经原生集成在 macOS、Windows、iOS、Android 等主流操作系统中,无需安装任何第三方客户端。

本文将基于《巧用香港中转,搭建丝滑稳定的中美三层隧道》的架构思路,构建一个 国内 -> 香港 -> 美国 的 IKEv2 隧道三级跳方案。

Read More

2025-07-15
用 Vibe Coding 解决 LLM 限制采样的面试题

这是我司的一道面试题。

有人说我们的 Vibe Coding 编程题太难了,其实我司的 2 小时 Vibe Coding 面试题都基本不需要自己写代码。只要把题输到 prompt 里面,跟 LLM 持续交互提需求和改进方向,AI 就给你自己做完了。

为什么叫 Vibe Coding?就是让你尽量少直接写代码。人和 AI 的分工变得非常明确:人负责把控方向、定义问题、审查结果,而 AI 负责具体的实现。像 Claude Code 这种就是一个极致,人不准动代码,只有 LLM 能动代码。

下面,我将通过这道面试题的完整经历,来展示 Vibe Coding 是如何运作的。这整个探索过程并非一帆风顺,AI 的初期方案存在严重缺陷。正是通过我不断的审查和方向修正,我们才最终抵达了那个可用的解决方案。这不仅是关于一个技术问题的解答,更是一次关于未来软件开发模式的深度探索。

值得一提的是,这篇文章本身,也是我在 Cursor 中,让 Gemini 2.5 Pro 根据我的工作日志(包含我与 AI 的所有对话、代码的演进过程)自动生成的。从我开始向 Cursor 提出最初的问题,到完成最终可用的程序,再到生成这篇图文并茂的博客文章,整个过程仅花费了 1.5 小时。

The Challenge: LLM 限制采样

一个学英语的软件需要保证其内置的 LLM 输出的所有单词都必须在一个 3000 词的词库范围内。

要求:

  1. 使用大语言模型(LLM)的限制采样(Constrained Sampling)方法,修改推理框架(如 transformers)中的 token 采样算法,保证 LLM 输出的所有内容都在这个给定的 3000 词的词库范围内。
  2. 当然,要允许输出标点符号、空格、换行等,但不允许输出特殊字符、中文、法语、表情符号等。
  3. 词库中单词的大小写变换都认为是合法的单词,例如词库中有 apple 一词,那么 appleAppleAPPLE 都认为是合法的输出。
  4. 3000 词的词库可以从网上随便找一个常见英语单词表。
  5. 要求限制采样算法性能尽可能好。
Read More

2025-07-12
巧用香港中转,搭建丝滑稳定的中美三层隧道

在之前的文章《搭建全程美国 IP、无需手动设置代理的三层隧道》中,我们通过 国内服务器 -> 美国服务器 的架构,解决了访问全球服务时遇到的诸多网络问题。但一个新的性能瓶颈逐渐显现:国内服务器与美国服务器之间的公网连接,在高峰时段延迟高、丢包严重。

这导致即便我们使用了隧道,依然会遇到 SSH 操作卡顿、在线会议掉线、API 请求超时等问题。根本原因在于中美之间的国际互联网链路,如同一条节假日的高速公路,拥堵是常态。

面对这个问题,一个反直觉的解决方案浮出水面:如果直路不通,我们绕路走会不会更快?

Read More

2025-07-10
中关村人工智能学院 & 国科大 2025 暑期 AI Agent 实践课题

2025 年 2 月在国科大的 AI Agent Hackathon 非常成功,因此 2025 年 7 月 27 日至 30 日在中关村人工智能学院,7 月 31 日至 8 月 4 日在国科大,我将再次 host 两个 AI Agent 实践课题。

非常感谢中关村人工智能学院副院长郑书新老师、国科大刘俊明老师邀请我来 host 这两场 AI Agent 实践活动。

本次 AI Agent 实践的所有课题将带你深入探索构建下一代 AI Agent 的前沿技术。你将有机会亲手实践:

  • 多模态模型、思考模型应用:以 Gemini 2.5 Pro、Claude 4 Sonnet 等业界领先的多模态模型和思考模型为核心,构建智能体的 “大脑”。
  • 实时语音交互:整合 VAD、ASR、LLM、TTS 技术栈,打造能够流式对话的实时语音 Agent。
  • 自主操作图形界面:开发能稳定操作浏览器等 GUI 的 Agent,完成真实世界的复杂任务。
  • 高级 Agent 架构:探索 “快慢思考”、“边听边想”、多智能体协同等先进架构,让 Agent 兼具实时响应和深入思考的能力。
  • 从经验中学习:构建能从经验中学习的 Agent,让它在重复任务中 “越做越熟练”。
  • 识别权威信息源:让 Agent 能在海量信息中,精准识别并采纳官方文档、学术论文等高可信度的信息。
  • 自主工具调用与创造:让 Agent 不仅能使用现有工具,更能自主学习并创造新工具来解决开放性问题。

关于 AI 辅助编程的建议: 在本次 AI Agent 实践中,我们鼓励大家使用 AI 辅助编程,也就是 “用 Agent 开发 Agent”。我们推荐使用 Cursor 进行 Vibe Coding,这里有一些建议:

  1. 文档先行,代码后上:先让 Cursor 写设计文档。你的角色是针对 AI 生成的设计文档提出改进意见,和 AI 一起迭代,直到满意为止。然后,再让 Cursor 按照最终的设计文档来写代码。在编码过程中,始终将设计文档放在 Agent 的上下文中作为参考。
  2. 选对模型:不要用 Cursor 的 “auto” 模式,一定要选择带思考能力的模型(旁边有一个大脑图标的),例如 Claude 4 Sonnet。
  3. 测试驱动:一定要让 AI 为它写的代码编写并执行测试用例,确保代码质量。

请自由组队,从以下课题中任选其一,开启你的创造之旅!

Read More

2025-07-10
国科大 2025 春季 AI Agent 实践课题

AI Agent 实践课程是国科大刘俊明老师和我一起开展的实践课程,2024 年第一届有 50+ 名同学参加,2025 年第二届有 100+ 名同学参加。2025 年春季 AI Agent 实践课题于 2025 年 2 月初在北京进行。

课题目录:

Read More

2025-06-30
我和孟佳颖的译著《图解 DeepSeek 技术》即将上市

Read More

2025-06-12
能办成事的 Agent:实时与环境交互,从经验中学习

【本文是笔者在 A2M 互联网架构与 AI 技术峰会图灵大模型技术专场的受邀报告。】

下载 PDF:《能办成事的 Agent:实时与环境交互,从经验中学习》

大家好,欢迎来到 A2M 峰会。今天我分享的主题是 “能办成事的 Agent:实时与环境交互,从经验中学习”

先介绍一下我自己。我是 Pine AI 的联合创始人和首席科学家

目前我们 Pine AI 的业务是,通过 AI 打电话帮助用户处理一些日常琐事和争议。在美国,打客服电话通常是一件很麻烦的事情。比如,你可能需要先等待半小时,然后还要花很长时间和客服沟通。如果客服不愿意帮你处理,你可能还会被转接到其他部门。所以整个流程下来,一个电话有时会耗费一两个小时。对很多人来说,并没有这么多时间去跟客服扯皮,有时候就吃了哑巴亏。还有一些人英语口语不够好,打电话沟通也很费劲。而 Pine 可以通过 AI 自动化地帮你完成这整个流程

让今天的 AI 能帮用户端到端扯皮办事其实是非常难的,绝对不是 SOTA 模型套上一个 prompt 这么简单。大多数 AI 产品都是仅仅给用户提供一些信息,比如生成一个调研报告,而实际办事还是要用户自己去联系客服。

让 AI Agent 能端到端办成事,其实非常困难。我们今天就来介绍一下其中一些核心技术挑战,以及 Pine AI 是如何解决这些问题的。

Read More

2025-04-28
搭建本地防污染 DNS 实现国内外网站智能分流

本文介绍了一种轻量级智能 DNS 分流解决方案,通过在本地搭建 Python DNS 服务器,同时查询国内外上游 DNS 并智能判断结果,有效避免 DNS 污染问题,同时保证国内网站获得最佳的本地解析结果。这种方案无需维护复杂的域名列表,能自动适应网络环境变化,为用户提供无缝的上网体验。

整体架构如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
                                   +------------------------+
| 应用程序 DNS 请求 |
+------------------------+
|
V
+----------------+ +------------------------------------------------+
| | | 轻量级 Python DNS 服务器 (53 端口) |
| 中国 IP 地址库 |--->| 同时查询国内外DNS,智能判断最佳响应 |
| | +------------------------------------------------+
+----------------+ / \
/ \
+------------------+ +------------------+
| 国内 DNS 服务器 | | 国外 DNS 服务器 |
| (114.114.114.114)| | (1.1.1.1) |
+------------------+ +------------------+
Read More
RSS