纸飞机TG账号老号购买-telegraph账号自助下单

25岁的洪乐潼，最近在硅谷火了。

这个来自广东的女孩，17岁考入MIT，三年修完数学和物理双学位，后来又进入斯坦福深造。

按照硅谷最熟悉的那套叙事，她是“天才少女创业者”的模板人物。

但洪乐潼真正让人记住的，不是履历，而是她做的事太反常识。

当整个AI行业都在追逐更大的模型、更强的生成能力、更像人的表达时，她偏偏转身去做了一件最不性感、也最难商业化的事：用数学验证AI。

她创办的公司叫Axiom，成立不足两年，员工只有20多人，最近拿下2亿美元A轮融资，投后估值高达16亿美元，折合人民币超110亿元。

Axiom不做聊天机器人，不做文生图，也不跟风大语言模型的热潮。它做的是“形式化验证”。

说白了，就是想用数学和逻辑，把AI每一步推理都变成可以检查、可以证明、可以追责的东西。

这听起来很冷门，但它瞄准的，却是大模型最麻烦的软肋——幻觉。

现在的AI最大的问题不是不够强，而是不够可靠。它可以把答案说得很像对的，甚至真的做对题，但你没法确认它到底是真的推出来了，还是只是“猜对了”。而Axiom要做的，就是把这种模糊状态，变成一种可验证的确定性过程。

这也是为什么，当洪乐潼拿着这个想法去融资时，迎面撞上的不是掌声，而是一个极其现实的问题：“数学怎么赚钱？”

迎难而上的天才少女

洪乐潼的办公室在硅谷帕洛阿尔托大学大道，距离斯坦福大学步行只要半个小时。斯坦福是她博士生涯的起点，但学位还没有念完，她就退学创业了。

事实上，早在博士在读期间，洪乐潼就已经注册了公司。公司取名Axiom，名字源自数学术语“公里”，“我想从公理出发，打造一个能够自我改进的超级智能推理器。”

一个24岁的博士生，没钱没人没产品，仅凭一个想法，她就拿下了960万美元的种子轮投资。

凭什么？

要知道现有的大模型本质上是概率黑盒，通过海量数据学习模式，然后基于统计规律给出答案。推理过程无法被量化，所以会胡说、会出错。

洪乐潼要做的就是用数学公理和形式化验证，让AI每一步推理都可证明，可以直接面向金融、军工、芯片和自动驾驶等对可靠性要求极高的市场。

她做的事显然击中了AI 最大痛点，解决幻觉与可靠性的问题。

更何况，早期投资投人，她本人也是不折不扣的跨学科天才学霸。

洪乐潼从小就展现出了惊人的数学天赋。2001年，她出生于广州市天河区，曾就读于华南师大附中。高一时，她就在全国数学奥林匹克选拔赛中晋级，并在华罗庚杯、全国高中数学联赛中屡获佳绩。

正是在奥数集训中，她对研究型数学产生了兴趣。

2018年，17岁的她被MIT录取，3年就修完了数学和物理双学位，不仅发表了9篇学术论文，还获得全美女性数学家最高荣誉Alice T. Schafer数学奖等诸多荣誉。

此后，她获得牛津大学罗德奖学金，她没有继续深耕数学，转头去学了神经科学，因为想“构建跨越科学领域的认知体系”。

基于这一目标，她同时在伦敦大学学院盖茨比计算神经科学中心开展深度学习研究，该中心由“深度学习之父”杰弗里·辛顿联合创立。也正是在此期间，她正式踏足AI领域，接触到许多最前沿的课题。随后她又进入斯坦福大学，攻读数学与法律双学科博士。

2024年，ChatGPT o3被曝光在数学测试中存在“作弊”嫌疑，全球舆论哗然。

作为斯坦福数学博士的洪乐潼也在社交媒体上发表了看法：“OpenAI大模型在数学测试中表现优秀，大概率是因为训练数据中提前泄题了。在一些测试中，大模型回答的准确率虽然高达96%，但一旦展示推理过程，得分率就降至5%。”

面对行业痛点，一种名为Lean的语言闯入她的视线，也让她嗅到了创业机会。

与自然语言不同，Lean语言是一个非常神奇的、可以自验证的数学编程语言。洪乐潼打了个比方：“如果用英语写出数学证明，我没办法知道一个5000行的证明是否正确，需要找高水平的专家验证。但Lean是自验证的，只要跑通了就是对的。”

Lean的逻辑是把自然语言或非形式化验证，转成机器可检查的形式化验证。

那啥是形式化验证呢？

普通的AI，你只能用它的答案来判断它是不是理解这个问题，但你不知道它中间有没有瞎蒙。

形式化验证是要求你把每一步都写成机器能检查的逻辑链条。只要中间有一步跳了、糊了、偷懒了，它就不给过。

之所以形式化验证能治大模型会幻觉，是因为形式化验证不管你答案如何，只要你的结论是从前提里一步步合法推出来的，那答案就是对的，从而避免了模型产生幻觉。

所以Axiom做的，就是让大模型负责猜想和搜索，让Lean负责验算和判断。如果Lean检查发现过程不对，那就退回去继续改。

但这显然是一条窄路。这条路冷门到什么程度？在整个AI版图里，形式化验证几乎是边缘中的边缘，全球的商业化玩家一只手就数得过来。

显然她并不是因为形式化验证是下一个风口才选的，而是因为她对“困难”的定义和别人不一样。

奥赛就像持续释放多巴胺的快感，而研究型数学像在撞墙，充满痛苦与煎熬。我其实特别喜欢这种挑战感。”她曾这样解释自己痴迷数学的原因。

正是这种刻在骨子里的挑战欲，让她不愿再停留在学术研究的舒适区，渴望在更广阔的战场上去攻克AI领域的硬骨头。

2024年深秋，斯坦福附近的一家咖啡馆里，洪乐潼与当时Meta AI研究总监Shubho Sengupta聊了整整几个小时，核心议题只有一个：AI能不能真正学会数学推理？

两人一拍即合，一个退学，一个辞职，两人一起创业。

一支“草根”工程师军团

Axiom只有20多名员工，洪乐潼用了一个词来形容团队的气质：草根工程师精神。

但事实上，这支团队的成员身份一点也不草根，甚至背景堪称豪华。

Axiom第一位成员，正是和她在咖啡馆聊了好几个小时的Meta前员工Shubho Sengupta，如今他的身份是公司的CTO。

核心科学家François Charton，则是将Transformer架构引入数学推理领域的先驱人物。他干的活，就是把数学算式当成一种“语言”输入进Transformer，试试看Transformer能不能像翻译句子一样去翻译数学。

其他成员约半数来自Meta AI，另一半则是世界级数学家与形式化验证先驱。

而最让外界震惊的一位成员，是57岁的数学泰斗小野健（Ken Ono）。

他是模形式领域的顶尖学者，美国数学学会前副会长，拿过古根海姆奖、斯隆奖等荣誉。指导过的学生中有十位摩根奖得主。他还曾为美国奥运游泳队提供数据分析，为电影《知无涯者》担任顾问。

这位弗吉尼亚大学终身教授与洪乐潼结缘于麻省理工。彼时大一新生洪乐潼参与了他的数论项目。师生关系延续至今，角色却已不同，2025年底，小野健辞去教职，全职加入Axiom，成为第15号员工。

曾拒绝过Google和Meta邀请的小野健，为什么愿意为一个24岁的学生“打工”？

“如果我的猜想能被机器在3天内推广到10个维度，我愿意当一个‘标注工’。”小野健曾公开表示，他选择帮自己的学生打工，不仅因为洪乐潼开出“不设教学、不设行政、100%科研”的合约，更关键的是，AI对他的“降维打击”，让他感到兴奋。

一群顶级学者和前Meta成员，这个团队哪里草根了？

洪乐潼的解释是，草根，代表着始终“空杯”的心态和坚韧的品质。在创业这条路上，即使是资深“牛人”，也要从头学起，不断自我革新。

她自己最喜欢的不是当“精英”，而是做“草根”，做个nobody（小人物），这样学习的坡度最陡、速度最快。

她自己也是“草根精神”的践行者，在被问到如何带领团队时，洪乐潼说：“我其实不太喜欢用带领这个词。我希望自己是一个Individual contributor（独立贡献者），每个人都是，这是一群志同道合的人在一起做事。”

“我们创立Axiom，就是要无限压缩把好奇心转化为真理的时间”，在资本驱动的硅谷，洪乐潼的这种纯粹性，对于顶尖研究者而言，或许比一份高薪offer更有吸引力。

这支不到20人的团队，在成立后不到一年就交出了一份令人意外的答卷。

2025年12月3日，Axiom宣布其核心系统AxiomProver在无人干预的情况下，攻克了困扰数学界数十年的两道埃尔德什难题。

同一天，洪乐潼收到了入选“福布斯30岁以下30人”榜单的消息。

同月，AxiomProver又在普特南数学竞赛中斩获满分，12道题全对。普特南是北美最负盛名的大学生数学竞赛，成绩的中位数常常为零，过去近百年仅有5个人类选手拿到过满分。

Axiom进一步印证了用形式化验证构建可靠、可核验、无幻觉的AI，已是行业明确的重要方向，而 AxiomProver 则在这条路径上交出了可复现、高难度的实证。

赛道升温，但挑战刚刚开始

从行业发展来看，洪乐潼的选择正好踩在了技术转折点上。

2024年年底，Meta FAIR和斯坦福大学等多所机构联合发布了一篇立场论文《Formal Mathematical Reasoning: A New Frontier in AI》。

论文给出了这样一个判断，过去的AI数学就是喂很多数学题，再让模型输出答案。这就导致数据会污染、过程会胡编，AI没办法自判断对错，并且还很难复现过程。

这显然是路走错了。就拿乘法口诀表来说，里面写的是2*3得6，那么你自己也能理解3*2就也得6。这个过程就叫复现。

论文主张的是下一步要把证明助手、形式系统、自动验证真正接进模型里来，让AI真正懂数学。

但这也意味着这条窄路正在变得拥挤。

过去十年，AI赛道的主流叙事是“更大参数、更多数据、更快生成”，所有大公司都在这条路上狂奔。洪乐潼选择的形式化验证是其中冷门到几乎没有竞争的赛道。

今年年初，Meta也发布了半形式化推理技术，让大语言模型能够在不执行代码的情况下验证代码补丁，准确率高达93%。竞品公司Harmonic在今年1月获得了英伟达投资，估值达14.5亿美元，产品已扩展到代码编写和芯片设计领域。Theorem、Axiomatic AI、Cajal等一批初创公司，也在近两年纷纷进入这个赛道。

对Axiom而言，挑战远不止行业竞争。

最大的挑战在于商业模式。洪乐潼最初的设想是将产品服务于对冲基金和量化交易公司，快速解决与资产定价、股市预测相关的复杂数学问题。

但这个蓝图至今仍停留在构想阶段。对高频交易而言，比“正确”更重要的是“足够快”，毫秒级的延迟可能比一次罕见错误带来更大损失。

Axiom的绝对正确性，在追求速度的金融场景中，其实际价值目前仍需要打一个问号。另一个挑战，则在于除了对价格不敏感的航空航天、国防军工等少数领域，其他绝大多数企业愿意为“绝对正确”支付高溢价吗？

洪乐潼自己也承认这一点：“数学怎么赚钱？我们从一开始就面临这个挑战。”但她认为，“现在，商业信号已经清晰很多，数学能创造价值，是因为它能自我验证、自我检查。”

另一方面，高估值本身也是一把双刃剑。16亿美元的A轮估值意味着，投资人期望的是超高速的增长和明确的退出路径。

Axiom必须在未来一到两年内证明其技术具备规模化商业化的可能，否则下一轮融资将面临巨大压力。与此同时，它需要在巨头和强劲对手的夹击中，用更少的资源跑出更快的速度。

Axiom的未来，更像是一场理想主义的压力测试。从“绝对正确”的技术理想，到“相对经济”的商业世界，Axiom的挑战，才刚刚开始。

什么叫MBTI？，它的全称是迈尔斯-布里格斯类型指标（Myers-Briggs Type Indicator），由美国的凯瑟琳·库克·布里格斯与女儿伊莎贝尔·布里格斯·迈尔斯，在20世纪40年代基于瑞士心理学家卡尔·荣格的《心理类型》理论开发而来。

MBTI的作用，就是用4个字母概括你的性格，以及你做决策时存在不同的心理偏好。这是全球应用最广的人格工具之一，累计超3亿人参与过测试。

那什么是SBTI呢？它是社区对经典MBTI人格测试的解构、玩梗和改编。全称为Silly Big Personality Test，直译过来就是 “傻大人格测试”。

原版SBTI测试一共包含了31道生活化的选择题，你只需要花大概3-5分钟就能完成，无需注册、完全免费。

这款测试由B站UP主 @蛆肉儿串儿创作，最初只是为了劝朋友戒酒做的恶作剧，却在一夜之间攻陷了微信、微博、小红书。

不少网友感叹：“现在是2016年吗？2026年居然还能有在朋友圈火起来的产品”“这种级别的刷屏已经很久没有在互联网上看到了”。

然而SBTI的背后并没有高深莫测的技术，它是vibe coding，是一个连服务器都用Cloudflare免费版、域名自掏腰包的"业余作品"。

SBTI的裂变

以前测MBTI，好歹还分个i人e人，什么充电的方式是独处还是和别人一起，听起来还文绉绉带点小格调，SBTI倒是直接不装了，什么话最丧最颓最阴暗扎心就冲着网友开麦：

自我攻击者IMSB：内心戏多到爆棚，遇事先自我否定，总觉得自己不够好；

小丑JOKE-R：靠搞笑撑满气氛，把难过藏在玩笑里，笑着笑着就沉默了；

草者FUCK：表面咋咋呼呼一惊一乍，实则内心清醒，不爱多管闲事。

送钱者ATM-er：永远在支付时间、精力、耐心和情绪价值，习惯性给别人兜底。

别的人格测试都上赶着夸人，这个SBTI倒是把人倒是把人扒得底裤不剩。

网友总结得好：MBTI问的是：“你是哪一种天赋型人格？”

而SBTI问的是：“你属于哪一种‘人间惨剧’？”

在SBTI迅速刷屏之前，我们都没有意识到人们“如何在不装不刻意的情况下，告诉别人我是谁”的需求有多旺盛。

我不能逮着你凑到你耳边急头白脸地跟你说我就是一个愤世嫉俗、阴暗幽怨、没什么大理想只想在家啃老躺平的人，但我可以借着这个大家都在po SBTI人格的氛围，在朋友圈体面而不突兀地告诉所有人我被确诊为吗喽/无所谓人/屌丝中的某一款SB。

不只是SBTI图鉴，整个测试流程从头到脚都透着那种 "诶，就是玩" 的松弛感。

多美妙的精神状态，谁还没有在挫折的时候这样悲观自弃地想过这个世界了？

测试到后面网页还会冷不丁显示一句：“全选完才会放行。世界已经够乱了，起码把题做完整”，ADHD人直接被抓了个现行，只好老老实实回去做完题。

从头到尾没半点正经，SBTI测试实实在在让网友体验到终于能光明正大摆烂、体面发疯的快乐。

怎么得出你的SBTI？

这原先只是一位b站up主为了劝朋友戒酒的一次整活。而up主蛆肉儿串儿此前是靠分享自己与GPT的人机恋日常，在B站获得了最初的流量积累。

GitHub上也开放了SBTI的源码，整个代码加起来不到2000行，下载下来不到1MB，比手机里一张高清表情包还小。

整个测试机制也很简单，首先是所有题的选项都提前标好了分：A选项是1分，B选项是2分，C选项是3分。

比如那道经典的：我不仅是屌丝，我还是joker,我还是咸鱼……，如果你选了A选项“我哭了。。”得一分，选了C选项“这不是我！”得三分。

接下来是把分数加总。测试一共30道普通题，每2道对应一个性格维度，一共15个维度（比如 "自尊自信"" 边界感 ""执行力"）。系统会把同一个维度下2道题的分数加起来，得到这个维度的总分。

接着按总分给每个维度贴一个等级标签：

总分≤3分 → L（低）

总分= 4分 → M（中）

总分≥5分 → H（高）

最后你会得到一串由15个L/M/H组成的字符串，比如：HHH-HMH-MHH-HHH-MHM。而系统提前写好了 25 种人格的标准字符串。

像拿捏者CTRL的标准字符串是：HHH-HMH-MHH-HHH-MHM；屌丝Dior-s的标准字符串是：MHM-MMH-MHM-HMH-LHL。

系统会拿你测试后得到的字符串，和这25个模板一个字母一个字母比对：字母一样就不扣分；字母差一级（比如 L 和 M、M 和 H）扣 1 分；字母差两级（比如 L 和 H）扣 2 分。

扣的分越少，说明你和这个人格越像。系统会把扣分最少的那个人格，作为你的 "主类型"。

就是这么一个简单的机制，却获得了惊人的传播效果。

通过Google Trend搜索SBTI词条可以看到，传播从4月9日的晚上九点二十开始，到了4月10日的零点，搜索热度达到了峰值，前前后后不过才花了两个小时四十分钟。

甚至测试页面因瞬时访问量激增，于4月9日晚至10日凌晨多次崩溃。

今早苏醒还晒了自己sbti测试结果——贫穷者，并发文称：“都散了吧，肯定不准，这是全互联网第一个这么说我的。”

另外还有黄晓明、蓝盈莹、华晨宇等明星晒出sbti人格，进一步证实了热度。

可以说是真正意义上的“以小搏大”“四两拨千斤”。

SBTI是一个vibe coding产品。可以说vibe coding的出现把普通人对大众情绪的洞察放大了，它赋予一个普通个体制造现象级传播事件的可能性。

普通人vibe coding的产品，虽然粗糙，虽然有bug，虽然不完美，但它有情绪，有态度，像每一个人身边都会有的一个会吐槽，会开玩笑，会偶尔说脏话的朋友。

SBTI的刷屏可能不会持续太久。再过一个月，也许大家就会忘记它，转而追逐下一个热点。不过它也给人以启发。

互联网的初衷就是给一个普通人表达自己、分享自己的地方。SBTI的出现，让我们看到了互联网最本来的样子：好玩、真实、自由、充满人情味。

特斯拉Semi电动卡车电池架构曝光：创新垂直立方设计

比亚迪廉玉波：新能源汽车产业正进入确定性与不确定性并存阶段

比亚迪廉玉波：新能源汽车产业正进入确定性与不确定性并存的阶段

每经热评·企业家画像 | 王兴白头，美团“去登味”

DeepSeek更新“前夜”，有些问题得提前理一理

“太空算力专业委员会”启动成员征集

三一重卡董事长梁林河：一台燃油重卡年碳排放量与100台燃油乘用车相当

专治AI说谎，25岁天才少女公司估值过百亿

AI写了不到2000行代码，SBTI制造了2026年第一场刷屏

十三届中国网络视听大会动态 | 24支战队集结！2026AI超创赛“24小时大师赛”入围战队揭晓