2025年10月

本周观影

  • 东京故事 2:E05(面包炒面,高利贷以及和棒球教练的故事)/E06(鲑鱼和综合菇,理发店老板出轨的故事)/E07(豆皮乌龙面,配音演员失败上进的故事)/E08(咖喱拉面,友情的故事)/E09(玉子烧,父子中国导演和日本演员)/E10

本周博客

本周文章

好奇心周刊第20期: 从四个方面了解Palantir

独特的公司 Palantir,之前也看过 Reflections on Palantir,可惜我没早发现投入这样的公司,目前只能保持关注了,其服务客服的方式是值得学习的。

https://x.com/Barret_China/status/1975904199683752364

推荐学习下微软搞的这个 R&D-Agent 框架,https://github.com/microsoft/RD-Agent,它是一个让 AI 能够自己做科研的系统——能提出问题、设计实验、验证结果、总结规律,整套科研流程都能自动化执行。

微软还基于这套框架,构建了一个用于量化投资研究的智能体 R&D-Agent(Q),https://github.com/microsoft/qlib,并与开源量化平台 Qlib 结合,实现了自动化因子挖掘与策略优化。照这个趋势发展下去,未来的量化研究,恐怕真得交给 AI 来操盘了,R&D-Agent 的整体架构分为两个阶段:研究阶段(Research Phase)和开发阶段(Development Phase)。研究阶段由四个部分组成:规划、探索路径结构、推理管线和记忆上下文,它们通过反馈机制持续循环,不断在假设、实验与分析之间往复,让系统在多轮探索中自动调整方向、积累知识、优化策略;开发阶段则承接研究成果,主要包括编码工作流与评估策略,前者把想法变成可执行代码,后者负责验证与对比结果,确保系统演化出的改进真实可靠。两个阶段形成首尾相接的闭环,让科研过程实现持续反馈与自我进化。

从本质上看,R&D-Agent 不是在“模拟科研”,而是在“系统化科研”。它让科学探索从线性的人力流程,转变为并行的智能网络。每一次假设的提出与验证,都会被记录下来,形成一份不断扩展的知识图谱,让科研活动变得可编排、可追踪、可积累。

相关论文:1)《R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science》,https://arxiv.org/abs/2505.14738 ;2)《Qlib: An AI-oriented Quantitative Investment Platform》,https://arxiv.org/abs/2009.11189

有意识保护我们身上的能量

能量是无形的、看不见的,却是着实存在的,围绕着我们,左右着我们。
这也让我觉得保护自己的能量、保护自己的注意力这件事,可能已经变成了当下最为重要的事情。
因为现在有各种事情,各种信息都会在无形中侵蚀着我们的注意力,不断地消耗着我们的能量,那消耗掉的能量以及被侵蚀的注意力,当要真正地用于做具体的某件事时,自然就力不从心了。

teleg 消息

学会一个新词:数字排毒

十一假期的最后一天,特别适合找个地方把自己关起来,整理照片、清理房间、梳理思路。拒绝所有最后的饭局和邀约。留出至少一个下午,进行一次高质量的独处。去阅读、去散步、或者只是单纯地发呆。让你的精神,从喧嚣中,慢慢地、平稳地,回归内在。

看到一个真实而带点诗意的趣事:2025 年诺贝尔生理学或医学奖公布后,美国免疫学家弗雷德·拉姆斯德尔正在做一次安静的离线徒步,手机信号全无,诺奖委员会暂时找不到他。他背包行走于爱达荷州的山里,等他走出山谷、回到有信号的地方,才会看到世界的欢呼。

妙的是,他与同获奖的玛丽·布伦科与坂口志文的工作,正是为了让免疫系统学会自我调节:从 1995 年的 Treg 发现到确认 Foxp3 是调节性 T 细胞的关键因子,人类因此能更好地收束免疫的过度反应。这一刻,科学家以身示范——在信息免疫学之外,选择与世界短暂拉开距离,让心智恢复稳态。

这则消息像一枚小针,提醒我们:真正重要的事不会在通知中心里闪烁,它会在山道上等你。

与此同时,我也学会了一个新词:数字排毒。在一段时间里有意识地远离手机、社交媒体与信息流,给大脑降噪,让注意力、睡眠与情绪回到稳定状态。它不是否定技术,而是重置关系,避免被无尽通知与算法牵引。

这也让我想到了两年前阅读的英文书籍《Stolen Focus》,做了一点摘录翻译:他很难在一个话题上停留超过几分钟,会突然重新盯着屏幕或切换到另一个(新)话题。他似乎以 Snapchat 的速度旋转着,任何静止或者严肃的事物都无法触及他。他聪明、正直、善良 —— 但似乎没有什么能在他的脑海中停留(生根发芽)。🥲

聪明的诸位一定也发现了,在这个「短视频」的 AI 时代,我们的关注是一种参与和力量,这很好,但通常不可持续,很难识别真正的问题,遑论提出有效的解决方案。 至于说行动,我觉得是另一个问题,我们并不真正知道那是一件什么样的事情,所以迟迟不愿意做出行动。拖延症的背后,不是意志力,而是缺少了解,只有一个泛泛的概念。

别担心,今天 AI 没有进化。另外还有一个冷知识:诺贝尔奖不需要自己申报,也不需要朋友圈转发和点赞。拉姆斯德尔与世隔绝这不也得奖了吗?🤡

结合上下的信息,被泛滥的信息所左右是多么的糟糕,一方面是能量流失了,一方面是注意力变没了,找回失去的注意力和流失的能力是很不容易,要给自己留数字排毒的时间。

teleg 消息

我每次看 Yonghong Song 做事都会想起《文明6》里的“大工程师”:  https://lwn.net/Articles/1016105/

如果说“好工程师”的标准是解决问题的能力和想象力,那“大工程师”还需要加上 改善生态的能力 ,这不仅包括硬实力——精通 clang/gcc/bpf/elf,而且愿意一次次站上去,把一个很多人都遇到过的小问题拿到台面上讨论,建立社区共识,改善基建生态。说这个问题是小问题是因为很多人都遇到过,我自己都遇到过太多次了,最后无非是 llvm-objdump 看一下哪个变量被优化了然后加上 volatile 就心满意足了。好工程师止步于此,大工程师才刚刚开始。

https://x.com/Barret_China/status/1975861192548548974

Agent 的动手能力,已经在过去一年经历了显著的跃迁。它不再只是会“聊天”的模型,而是可以真正去动手、去执行复杂任务的智能体。那么现在它能做到什么?已经能解决多复杂的软件工程问题?又该如何在社区里找到最强框架并复用到自己的项目?下面是几条更实用的思路。

要评估一个 Agent 的动手能力,无论它是单一的 LLM,还是 LLM 加上外部工具的工程实现,最终都要回到数据集上。因为数据集定义了“考试题目”,而 benchmark 决定了“评分标准”。目前能全面评估 Agent 工程执行力的两个核心数据集,一个是 OpenAI 的 SWE-bench(software engineering-bench),另一个是 THUDM 提供的 Agent-Bench。前者聚焦真实软件仓库的 bug 修复与功能实现,是“AI 程序员”的试炼场;后者覆盖更广,从软件、操作系统、网络、推理、工具使用到多模态交互,是对 Agent 通用智能和工具操作能力的系统化测评。

什么才算一个好的 Agent,还得回到问题域上看。SWE-bench 的目标是让 Agent 能像程序员一样理解代码、修补缺陷、通过单测;而 Agent-Bench 则像是在考察一个“通才型工程助理”,既要能读懂文档、用命令行、写代码,又要能跨工具协作、执行复杂任务链。前者考工程深度,后者考任务广度。这两个维度,几乎定义了 Agent 的“手工能力边界”。

理解这个边界,还得区分哪些问题是 LLM 本身可以解决的,哪些必须依赖外部工具。从大模型的演进来看,许多原本需要显式工具链配合的能力,正在逐步被“内化”进模型本体。Chain of Thought 已经演化为参数化的推理能力(Reasoning),知识图谱的结构化记忆也被吸收到模型的参数知识(Parametric Knowledge)中。而最近阿里开源的 Tongyi DeepResearch,正是这种趋势的最新代表:它通过强化学习(RL)直接训练模型具备“研究型行为”,主动检索、阅读、摘要、再检索,在真实网络环境中形成自我迭代的探索闭环。

要找到好用的 Agent 框架或最佳实践,最直接的办法就是去看各大数据集的打榜记录,榜单上往往能看到社区最新的开源成果与架构思路。SWE-bench 有一个官方 leaderboard,目前得分最高的方案往往来自一些 AI IDE 工具,比如 TRAE、Augment Code 等,因为 SWE 要解决的软件工程问题,和 AI IDE 的目标几乎完全重叠,它们都想让模型在真实项目里“动手干活”。在这些榜单里,你可以找到大量可以直接复用的开源实现,例如 github@augmentcode/augment-swebench-agent、github@ByteDance-Seed/Seed-Coder 等。

如果你正好在做相关方向的工作,不妨先采取“拿来主义”。SWE-bench 上最好的模型得分已经达到了 78.8 分,意味着这些 Agent 已经能解决绝大多数真实工程问题。要知道,在 2024 年三月,这个榜单的最高分还只有 12.4。短短一年,从“会写代码”到“能维护项目”,AI 的动手能力,已经跨过了一个关键分水岭。```

Unsplash Awards 2025 edition

推荐 Unsplash 的图片,上面是 2025 Awards,目前电脑的桌面壁纸用的是 Unsplash App 刷新,Chrome 浏览器的也是用插件实现刷新。

8 天的国庆中秋假期,如常回老家待几天,也和老爸一起出去玩了一趟,应他要去千岛湖的要求,总体感觉还不错了,千岛湖的旅游成熟度很高,游船线路以及导游都很专业,6 个小时的行程,三个小岛,都还算能玩一玩,第二个岛上可以吃午餐,不过质量以及排队体验实在不行,不贵,最便宜自助餐 45 块一个人,但是估计也是因为国庆客流巨大的缘故。

本周观影

本周播客

本周文章

https://x.com/Barret_China/status/1973188130091180466

LLM 出来之后,在应用层的折腾从未停歇。从 Prompt 调优到 Workflow 配置,再到 Agent 构建,最终目的都是一样的:让 LLM 更好地为人类干活,把机器的性能压榨到极致。
对 LLM 的压榨,可以分为两个维度。一是帮助它找到最优算法,让推理少走弯路。
为此我们几乎把能想到的路子都走了一遍,让 LLM 学会反思(reflection、self-consistency、self-critics),学会推理和规划(reasoning、planning、chain-of-thought、tree-of-thought);学会记忆(short-term memory、long-term memory),不至于对话一长就失忆;学会找知识(RAG、knowledge graph),在外部世界里补充事实;学会构建上下文(context building),在有限 token 里塞下更多有效信息;学会用工具(tool-use,function calling,MCP),把事情交给外部程序去跑,而不是光靠自己生成;等等。
这些东西,说到底都是技巧和机制,本质目的是让 LLM 更快理解人类要干啥,围绕目标(goal-oriented)尽可能找到一条代价最小的路,跑到最优解上去。
第二个维度,是对时间的压榨,让 LLM 可以做到 7×24 小时不停歇。当我们对 LLM 有了更深入的理解之后,很容易想到把它打造成属于自己或组织的“数字员工”,它不知疲惫、不会抱怨,可以持续运转、不断学习。
大部分人今天用 AI 的方式,还停留在查资料、总结内容、写周报月报这些单点场景上,如果要真正构建一名“不停歇的 AI 数字员工”,光靠这些还不够。我们需要先规划出属于自己的 AI 数字工厂 ——想清楚要造出来的“产品”是什么,是沉淀知识的系统,是自动化的业务流程,还是一个可以长期迭代的服务。
在这座工厂里,AI 是生产线上的执行者,它负责具体的加工与产出;而人类的角色发生了转变,从“亲自干活的工人”变成“监工与管理者”。 人类不再亲手完成每一步,而是要设计流水线,设定规则,制定指标,监控质量,并在需要时调度资源。换句话说,AI 的价值不在于替我们“干一点活”,而在于帮把整条流水线跑起来,而人类更像是“数字工厂的管理者”。
当这两个维度结合起来时,真正的拐点就出现了。LLM 不再只是一个冷冰冰的工具,而是逐渐变成了可以长期协作的伙伴。它既能承担重复性劳动,也能在复杂问题上提供洞见。它不仅仅是“帮你做事”,更是“和你一起做事”。
未来的差距,不在于谁能写出更漂亮的 Prompt,而在于谁能把 LLM 真正融入到自己的时间和组织里,形成稳定的生产方式。
因此,会不会用、用到什么深度、能否持续优化,这些才是长期的竞争力来源。谁能把 AI 运行成“工厂”,让自己从执行者转为监工和管理者,谁就能在未来的日常工作和业务中,获得真正可复用、可累积的优势。

做研发的思路一定要转变,不过以后也许科技行业都是顶尖的人才能进入,目前这些打杂的都可以被 AI 取代。

类似的看到一个 teleg 上的一个信息

睡前快速写下今天对 AI 的一个感悟。昨天有个朋友向我咨询他们在进行跨国直播时遇到的网络问题,这并不是我的专长,于是我让他们尽可能详细地收集描述问题的信息,收到他们讨论出的总结之后,我把问题用技术化语言重新组织了一下并喂个 Gemini Deep Research,得到了这么一份分析报告和解决方案 https://g.co/gemini/share/33929d4556e8

这不是我第一次用 Deep Research,可以说这是我遇到超出知识能力范围问题唯一信任的 AI 工具,多次帮我解决实际难题,但还是不得不感叹它的高质量和令人信服。

于是我想到,在 AI 越来越强大的今天和未来,实践的行动力从未如此重要。是否掌握理论知识,决定了一个人在一件事上能走多远。但如今当 AI 能快速抹平理论知识的差异,那么是否能行动起来,把知识转化为实际经验,就是人与人之间产生差距的根本原因。

这次朋友遇到的问题,虽然不是我的专长方向,但我有信心在基于 AI 给出的指导下参与解决这个问题之后,我可以在视频流传输网络调优方面初窥门径,增加一项新的能力。

当知识变得更易获得,实践的行动力,和从实践中获得认知和能力的效率,就是能否成为强者最重要的因素

不做普通人|從設計師到職業投資人的故事

扩展自己的认知和圈子,想要什么,有什么不舒服有可能改变你的人生,让你的目标和方向非常明确,每次选择更接近你的目标。

什么是我的目标和方向?通过其他收入,早点实现工作自由,摆脱恼人的职场生涯,让生活可以上一个台阶。
昨天看 LEI 不做普通人的视频,听下来其中有一条,需要进入高人圈(他有推销自己的贵人圈嫌疑)是认同的,但对我来说目前多听好的播客以及多看好的视频,是我接触高手的唯一的机会,需要不断听看和思考,学习,同时和小圈子的多聊也是我学习的一个渠道,其他都是废材。

Transcript for Pavel Durov: Telegram, Freedom, Censorship, Money, Power & Human Nature | Lex Fridman Podcast #482

视频版本:https://www.youtube.com/watch?v=qjPH9njnaVU&t=2075s, Freedom/No alcohol/No phone …, 与众非常的不同,还没全部听完。