每周文摘 10112025
本周观影
- 东京故事 2:E05(面包炒面,高利贷以及和棒球教练的故事)/E06(鲑鱼和综合菇,理发店老板出轨的故事)/E07(豆皮乌龙面,配音演员失败上进的故事)/E08(咖喱拉面,友情的故事)/E09(玉子烧,父子中国导演和日本演员)/E10
本周博客
- 暂无完整听完,目前在听面对大债务周期,我们的力不从心与力所能及
本周文章
独特的公司 Palantir,之前也看过 Reflections on Palantir,可惜我没早发现投入这样的公司,目前只能保持关注了,其服务客服的方式是值得学习的。
https://x.com/Barret_China/status/1975904199683752364
推荐学习下微软搞的这个 R&D-Agent 框架,https://github.com/microsoft/RD-Agent,它是一个让 AI 能够自己做科研的系统——能提出问题、设计实验、验证结果、总结规律,整套科研流程都能自动化执行。
微软还基于这套框架,构建了一个用于量化投资研究的智能体 R&D-Agent(Q),https://github.com/microsoft/qlib,并与开源量化平台 Qlib 结合,实现了自动化因子挖掘与策略优化。照这个趋势发展下去,未来的量化研究,恐怕真得交给 AI 来操盘了,R&D-Agent 的整体架构分为两个阶段:研究阶段(Research Phase)和开发阶段(Development Phase)。研究阶段由四个部分组成:规划、探索路径结构、推理管线和记忆上下文,它们通过反馈机制持续循环,不断在假设、实验与分析之间往复,让系统在多轮探索中自动调整方向、积累知识、优化策略;开发阶段则承接研究成果,主要包括编码工作流与评估策略,前者把想法变成可执行代码,后者负责验证与对比结果,确保系统演化出的改进真实可靠。两个阶段形成首尾相接的闭环,让科研过程实现持续反馈与自我进化。
从本质上看,R&D-Agent 不是在“模拟科研”,而是在“系统化科研”。它让科学探索从线性的人力流程,转变为并行的智能网络。每一次假设的提出与验证,都会被记录下来,形成一份不断扩展的知识图谱,让科研活动变得可编排、可追踪、可积累。
相关论文:1)《R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science》,https://arxiv.org/abs/2505.14738 ;2)《Qlib: An AI-oriented Quantitative Investment Platform》,https://arxiv.org/abs/2009.11189
能量是无形的、看不见的,却是着实存在的,围绕着我们,左右着我们。
这也让我觉得保护自己的能量、保护自己的注意力这件事,可能已经变成了当下最为重要的事情。
因为现在有各种事情,各种信息都会在无形中侵蚀着我们的注意力,不断地消耗着我们的能量,那消耗掉的能量以及被侵蚀的注意力,当要真正地用于做具体的某件事时,自然就力不从心了。
teleg 消息
学会一个新词:数字排毒
十一假期的最后一天,特别适合找个地方把自己关起来,整理照片、清理房间、梳理思路。拒绝所有最后的饭局和邀约。留出至少一个下午,进行一次高质量的独处。去阅读、去散步、或者只是单纯地发呆。让你的精神,从喧嚣中,慢慢地、平稳地,回归内在。
看到一个真实而带点诗意的趣事:2025 年诺贝尔生理学或医学奖公布后,美国免疫学家弗雷德·拉姆斯德尔正在做一次安静的离线徒步,手机信号全无,诺奖委员会暂时找不到他。他背包行走于爱达荷州的山里,等他走出山谷、回到有信号的地方,才会看到世界的欢呼。
妙的是,他与同获奖的玛丽·布伦科与坂口志文的工作,正是为了让免疫系统学会自我调节:从 1995 年的 Treg 发现到确认 Foxp3 是调节性 T 细胞的关键因子,人类因此能更好地收束免疫的过度反应。这一刻,科学家以身示范——在信息免疫学之外,选择与世界短暂拉开距离,让心智恢复稳态。
这则消息像一枚小针,提醒我们:真正重要的事不会在通知中心里闪烁,它会在山道上等你。
与此同时,我也学会了一个新词:数字排毒。在一段时间里有意识地远离手机、社交媒体与信息流,给大脑降噪,让注意力、睡眠与情绪回到稳定状态。它不是否定技术,而是重置关系,避免被无尽通知与算法牵引。
这也让我想到了两年前阅读的英文书籍《Stolen Focus》,做了一点摘录翻译:他很难在一个话题上停留超过几分钟,会突然重新盯着屏幕或切换到另一个(新)话题。他似乎以 Snapchat 的速度旋转着,任何静止或者严肃的事物都无法触及他。他聪明、正直、善良 —— 但似乎没有什么能在他的脑海中停留(生根发芽)。🥲
聪明的诸位一定也发现了,在这个「短视频」的 AI 时代,我们的关注是一种参与和力量,这很好,但通常不可持续,很难识别真正的问题,遑论提出有效的解决方案。 至于说行动,我觉得是另一个问题,我们并不真正知道那是一件什么样的事情,所以迟迟不愿意做出行动。拖延症的背后,不是意志力,而是缺少了解,只有一个泛泛的概念。
别担心,今天 AI 没有进化。另外还有一个冷知识:诺贝尔奖不需要自己申报,也不需要朋友圈转发和点赞。拉姆斯德尔与世隔绝这不也得奖了吗?🤡
结合上下的信息,被泛滥的信息所左右是多么的糟糕,一方面是能量流失了,一方面是注意力变没了,找回失去的注意力和流失的能力是很不容易,要给自己留数字排毒的时间。
teleg 消息
我每次看 Yonghong Song 做事都会想起《文明6》里的“大工程师”: https://lwn.net/Articles/1016105/
如果说“好工程师”的标准是解决问题的能力和想象力,那“大工程师”还需要加上 改善生态的能力 ,这不仅包括硬实力——精通 clang/gcc/bpf/elf,而且愿意一次次站上去,把一个很多人都遇到过的小问题拿到台面上讨论,建立社区共识,改善基建生态。说这个问题是小问题是因为很多人都遇到过,我自己都遇到过太多次了,最后无非是 llvm-objdump 看一下哪个变量被优化了然后加上 volatile 就心满意足了。好工程师止步于此,大工程师才刚刚开始。
https://x.com/Barret_China/status/1975861192548548974
Agent 的动手能力,已经在过去一年经历了显著的跃迁。它不再只是会“聊天”的模型,而是可以真正去动手、去执行复杂任务的智能体。那么现在它能做到什么?已经能解决多复杂的软件工程问题?又该如何在社区里找到最强框架并复用到自己的项目?下面是几条更实用的思路。
要评估一个 Agent 的动手能力,无论它是单一的 LLM,还是 LLM 加上外部工具的工程实现,最终都要回到数据集上。因为数据集定义了“考试题目”,而 benchmark 决定了“评分标准”。目前能全面评估 Agent 工程执行力的两个核心数据集,一个是 OpenAI 的 SWE-bench(software engineering-bench),另一个是 THUDM 提供的 Agent-Bench。前者聚焦真实软件仓库的 bug 修复与功能实现,是“AI 程序员”的试炼场;后者覆盖更广,从软件、操作系统、网络、推理、工具使用到多模态交互,是对 Agent 通用智能和工具操作能力的系统化测评。
什么才算一个好的 Agent,还得回到问题域上看。SWE-bench 的目标是让 Agent 能像程序员一样理解代码、修补缺陷、通过单测;而 Agent-Bench 则像是在考察一个“通才型工程助理”,既要能读懂文档、用命令行、写代码,又要能跨工具协作、执行复杂任务链。前者考工程深度,后者考任务广度。这两个维度,几乎定义了 Agent 的“手工能力边界”。
理解这个边界,还得区分哪些问题是 LLM 本身可以解决的,哪些必须依赖外部工具。从大模型的演进来看,许多原本需要显式工具链配合的能力,正在逐步被“内化”进模型本体。Chain of Thought 已经演化为参数化的推理能力(Reasoning),知识图谱的结构化记忆也被吸收到模型的参数知识(Parametric Knowledge)中。而最近阿里开源的 Tongyi DeepResearch,正是这种趋势的最新代表:它通过强化学习(RL)直接训练模型具备“研究型行为”,主动检索、阅读、摘要、再检索,在真实网络环境中形成自我迭代的探索闭环。
要找到好用的 Agent 框架或最佳实践,最直接的办法就是去看各大数据集的打榜记录,榜单上往往能看到社区最新的开源成果与架构思路。SWE-bench 有一个官方 leaderboard,目前得分最高的方案往往来自一些 AI IDE 工具,比如 TRAE、Augment Code 等,因为 SWE 要解决的软件工程问题,和 AI IDE 的目标几乎完全重叠,它们都想让模型在真实项目里“动手干活”。在这些榜单里,你可以找到大量可以直接复用的开源实现,例如 github@augmentcode/augment-swebench-agent、github@ByteDance-Seed/Seed-Coder 等。
如果你正好在做相关方向的工作,不妨先采取“拿来主义”。SWE-bench 上最好的模型得分已经达到了 78.8 分,意味着这些 Agent 已经能解决绝大多数真实工程问题。要知道,在 2024 年三月,这个榜单的最高分还只有 12.4。短短一年,从“会写代码”到“能维护项目”,AI 的动手能力,已经跨过了一个关键分水岭。```
推荐 Unsplash 的图片,上面是 2025 Awards,目前电脑的桌面壁纸用的是 Unsplash App 刷新,Chrome 浏览器的也是用插件实现刷新。