黄东旭 “内涵天下源代码”:《黑镜》、步伐之美和创作自由(下) ...

来自版块: 资讯
765
0

一个会写诗来形貌数据库内核规则的人。整理丨刘倩云原生和出海晚点:你们真正发展起来是在这五年的时间吗?黄东旭:对,你可以以为前五年都在写代码。晚点:你们真正有大客户是2020年之后?黄东旭:外洋大客户是。晚 ...

一个会写诗来形貌数据库内核规则的人。


整理丨刘倩


云原生和出海



晚点:你们真正发展起来是在这五年的时间吗?


黄东旭:对,你可以以为前五年都在写代码。


晚点:你们真正有大客户是 2020 年之后?


黄东旭:外洋大客户是。


晚点:中国大客户发展呢?


黄东旭:2017 年就有了,谁人时间恰好赶上国产化,有一波契机。


晚点:你们如今国内客户跟国外客户占比是怎样的?


黄东旭:七成是外洋。


晚点:那整个公司的发展过程中有什么地方是超出你之前预期的吗?


黄东旭:云原生。昨们很早就决定要做云服务公司 —— 究竟无论是在中国照旧美国,单纯卖数据库软件都不是特殊挣钱的买卖。假如想让这弟子意可连续,我以为得把卖软件的思绪变化为卖服务的思绪,也就是云服务的思绪。实在这三年昨们不停在转型,已往国内大客户根本都是靠卖软件授权(license)和服务的模式,但这种服务情势存在种种题目。以是昨们明白了从售卖软件到售卖服务的转型方向,不外在落地过程中踩了无数坑。最初昨们对云服务的明白很简朴:把数据库软件摆设到云服务上,然后按利用时长计费不就行了?但现实不是如许的,这个是昨们第一版实现方式,从本钱上来说根本行不通。


晚点:你们其时是不是一开始就想做云服务?


黄东旭:实在最初昨们并没有这么宏大的 vision。大概从 2018 年开始,昨们才以为完全拥抱 cloud infrastructure 大概是将来的方向,谁人时间就开始做 prototype 了,只是没让全部团队都到场进来。


如今做数据库有两条路径:一条是把每台盘算机毗连起来,构成超等盘算机,这是昨们已往做数据库的方式。但在 2018 年有个庞大变化 —— 昨们不再关注每一台详细的盘算机,而是只必要看到 “云” 就够了。这就像自来水,从前要本身打井,如今假设家里有水龙头。2018 年昨们建立了 “将来每家每户都有水龙头” 的假设,这大概是一个更大的变化。


晚点:你们还走了什么弯路?


黄东旭:国际化。之前常说昨们是一家在北京的硅谷公司,是由于 2015 年恰好是环球化最火热的时间,之前昨们不停有一些理想——以为可以靠国内团队推动出海。但厥后意识到所谓的环球化实在是各地的当地化,假如不在本地做本土化业务,很难从中国视角输出什么,由于对方必要的不是外来输出,而是能明白他们需求的当地供应商(local vendor)。


在这个认知变化过程中昨们犯了许多错,好比团队人选、互助同伴选择,以及在哪些云服务上作为第一方服务落地等。举个例子:公司要不要专门设一个 “出海团队”?实在不必要。由于 “出海” 意味着根基仍在中国,只是向外拓展。厥后昨们改变了模式,在日本、东南亚 APEC、美国等地方都建立了独立公司,每个公司都有独立的 CEO、CTO 和当地团队。但这会不会造成冗余?公共资源会不会浪费?但现实履历是,省去的沟通本钱远比拉通管理节流的资源更多。


晚点:那你们如今从软件公司转型成售卖云服务的公司?


黄东旭:是的。


晚点:假如从建立第一天就把这个作为战略目的,效果会不一样吗?


黄东旭:会非常不一样。DataBricks 就是个很好的例子,它重要做数据分析和云上数据堆栈,是开辟者社区里一款很受接待的开源软件,也可以看作是一个数据库。但 DataBricks 公司的思绪非常清楚——不售卖 Spark 授权或软件专业服务,而是专注打造云上的纯云原生数据堆栈,在这一点上它态度非常果断。从建立第一天起就完全依托于云,即便有大客户不想用云服务,这种环境它宁肯不做。


晚点:可大厂不是本身也在做这类业务吗?


黄东旭:答案实在很简朴,看看大厂做这类业务的团队规模就知道了。好比 AWS 负责 Spark 服务的团队只有二三十人,而其时 DataBricks 已经有五六百人了。五六百人的团队和二三十人的团队竞争,那不是轻轻松松吗?而且对于 ToB 的企业客户来说,他们做选择时是理性决议,不会由于广告多或品牌响就买单,肯定会把主流的头部方案都测试一遍,再看总体代价。由于 DataBricks 算是 Spark 的官方团队,对技能门路图有掌控力,加上团队规模大、服务更到位,客户天然会选择服务更优的一方。


晚点:中国为什么不能诞生 DataBricks?重要缘故原由是什么?


黄东旭:我以为如今底子办法还没预备好。能为云底子办法(cloud infrastructure)付费的客户对云的拥抱还没有 ready,这一点实在拦阻了许多新贸易模式的产生。


晚点:以是你们中心有段时间融资不顺,实在也和战略转向有关,对吗?


黄东旭:一是大情况的影响,二是昨们其时也不必要融资。


晚点:如今公司红利了吗?


黄东旭:倒也没有。但可以这么说,从趋势来看昨们根本能无穷地活下去。


晚点:由于你们有不错的现金流?


黄东旭:对。


晚点:你们终极想把公司打造成什么样?


黄东旭:提及来有点大,昨们想成为全天下最受人尊重的底子软件公司。


晚点:你以为现在全天下最受人尊重的底子软件公司是哪家?


黄东旭:现在似乎还没有。


晚点:“尊重” 是指什么?


黄东旭:产物能真正资助到用户。我以为赢利是一方面,但更紧张的是对社会产生的正面影响有多大,这是我对本身做的体系权衡。


晚点:受人尊重和赢利,哪个优先级更高?


黄东旭:从公司愿景来看,受人尊重肯定更紧张。假如一家公司能创造 10 万亿的社会代价,从中赚取 1000 亿是天然而然的。



养花、种树,也可以不消搞懂 Transformer



晚点:你们做了什么为将来结构但短期没有结果的事?


黄东旭:起首肯定是 AI。我以为有个难点,当你意识到这是个极具影响力的方向时,却发现团队成员在一样平常工作中很难真正拥抱它 —— 老板每天谈 AI,但每个人详细做的事好像和它没有直接关联。如今最大的难点还是不停通过各种方式、在各种场所引导各人以精确的 mindset 利用 AI,由于实在许多人对 AI 是怀有敌意的。


晚点:你们公司应该没有这种环境吧?


黄东旭:也有。好比我推动一些项目时,同事调研一圈后说结果不可,有没有好好调研?实在大多时间我内心是有答案的。不少公司都存在这个题目,许多人为了证实本身,会刻意挑刺。


晚点:你是怎么用 AI 的?你的工作发生了什么变革?你们公司层面是怎样应用 AI 的?又发生了哪些变革?


黄东旭:站在步伐员角度来说,利用 AI 时最大的困难是不要自我设限。我是后端工程师,但从前也做过前端以及 Windows 客户端、iOS 客户端和 Web 开辟,由于我从小学编程,没有老师,都是根据需求决定学什么。但许多科班身世的工程师会给本身设限:“我的工作的 background 是如许,我就是后端、我就是 iOS 步伐员,我要去转型”。在我看来,古典步伐员内里,尤其是 hacker,根本不存在 “转型” 的说法,焦点就是不要自我设限。从前不设限必要快速学习全部知识,如今有 AI 辅助,学习服从大大进步,乃至 AI 比人更清晰技能细节。以是个人最紧张的是有完成目的的信心,能发现题目、动手办理题目,这才是关键,其他都不紧张。


晚点:那实在意图就变得很紧张。


黄东旭:对,意图、动机以及发现题目的本领。固然,利用 Cursor 等 AI 编程工具时也存在范围,在真正复杂的体系、新的库或高难度场景中,仍必要 “老司机” 把控,这是第一个范围;第二个领会是 AI 无法告诉你未知的东西。好比你说 “我要做微信”,它无法仅凭提示词规划完备路径。这要求利用者必须具备评价 AI 工作的本领。你得知道第一步选什么库、第二步怎样计划架构,可以不懂细节,但必须把握大方向。假如连方向都无法判定,AI 大概率会走错路,这也是我不看好 “甩手掌柜式” Agent 的缘故原由。


以是我如今的工作方式是先和 Cursor 讨论计划文档的思绪,把项目标代码框架搭好,剩下的让它做完形填空就行,这是服从比力高的方式。


晚点:你怎么看近来硅谷很火的 vibe coding?


黄东旭:我很喜好 vibe coding,但就像我刚才说的,它只实用于两种环境:一是大框架已经非常清楚的时间,二是你能评价 AI 工作的时间。假如完全依靠 vibe coding 而不去判定 AI 天生的内容,这是很伤害的。


晚点:你已经有 30 年编程履历,用它以为如鱼得水,能节流许多时间。但对于发展中的工程师或步伐员来说,假如一开始就恒久依靠这个东西,会毁掉他的职业生活吗?


黄东旭:我以为假如不停 vibe coding、不学习,绝对不可。好比 DeepSeek 近来在开源周开源出了一堆 AI Infra 的代码,如今美国做底子软件或体系工程师的人越来越少,尤其在创业公司里。可以说,现在硅谷最热门的创业公司里,许多工程师的技能根本不如 DeepSeek 的团队踏实。我拿 DeepSeek 的一些优化方案去问某些顶尖 AI 公司的底子办法负责人,对方的反应是:“like magic(这简直像邪术)”。


晚点:在 AI 期间,PingCAP 的工作会有什么差别吗?你们会用 AI 重新计划整个架构吗?


黄东旭:肯定不会用 AI 重写架构。我以为昨们早期的 philosophy(理念)在 AI 期间依然实用,但必要做好预备把用户从步伐员或软件开辟者,转向思索 “假如用户是大模子或 AI,他们会怎样等待数据软件”。


晚点:你们的用户大概会是一个 Agent。


黄东旭:是的。昨们已经在做一些相干工作,不外还没发布,以是不方便透露细节,但从题目自己思索:AI 必要什么样的存储和数据库?


晚点:能简朴讲一下思索的点吗?


黄东旭:好比,要为大脑实现影象层(memory),起首不能给它太多限定。像已往做数据处置惩罚时,昨们总想着做报表、做 ETL、做归纳总结。如今许多公司的数据团队和运营团队天天都在重复雷同的工作:把运营数据翻来覆去整理成报表交给老板。但我发现,在将来的 AI 期间,数据处置惩罚的方式不能再像人类如许 “自作智慧” 地做预处置惩罚,也无需搭建数据堆栈,最好的做法是直接提供原始数据,让 AI 通过机动接口访问。比起人为 “封装” 一层,这种方式能让 AI 提供更大的代价。


晚点:按照新的消化数据的方式,中心的 CRM 公司都能被代替吗?


黄东旭:是的。而且当贩卖团队规模扩大后,我无法再对每个贩卖的环境洞若观火,但永久可以通过差别维度与大语言模子 back and forth 分析他们的工作。已往提一个需求,大概三天后才拿到报表,而且大概拿到后发现这不是本身想要的,又得等三五天,至少如今这个工具至少帮我提拔了许多服从。


但刚才提到一个关键题目就是,怎样发现需求或提出精确的题目?我其时的真实痛点就是不想看 Salesforce,以是相称于我要写个步伐,用大语言模子来办理这个题目。


晚点:我看了下 Salesforce 市值是 2270 亿美元,就将来各人大概不再必要它那么复杂的服务和收费产物了。


黄东旭:这也是我以为做 database 不会赋闲的缘故原由,大语言模子要与人产生关联,必须通过 personal data(个人数据)。


晚点:那平凡公司和平凡人呢?


黄东旭:你刚才问我的产物该为 AI 期间做什么预备?我如今的底子办法能为全天下每个人提供属于本身的免费个人数据库。存储一生数据就该是免费的,而且 personal data 量实在不大,好比我本身全部的个人数据都存在内里,包罗飞书和微信的记载,只是如今这个工具还太方向工程师利用。


晚点:这个数据库是在云端吗?


黄东旭:是的。


晚点:及时更新吗?


黄东旭:满是及时的。以是每个人都会有本身的个人数据 —— 好比以时间为维度的信息流,像本日下战书和同砚的谈天内容,随身 Agent 可以直接将这些转化为布局化数据。我本身做了一个雷同树莓派的小型装备,不外没带在身上,这个装备雷同多模态大语言模子,它每隔 5 秒钟拍一张照, summary 一下。


晚点:你做的装备是不停灌音并每 5 秒照相吗?


黄东旭:对,照相后让模子总结照片内容,再按特定格式写入我的数据库。


晚点:末了出现出来是什么样?


黄东旭:是一个 feed list。


晚点:你大概是 AI 最喜好的数据提供者了(笑),网络了许多数据,相称于搞了副智能眼镜。


黄东旭:是的,从前昨们对数据的认知是 “大数据”,大数据中心有许多 business,是把这些 data 做 processing,将零星的数据整合为大规模数据集,再从大数据的分布中提取洞察,这是传统大数据的逻辑。但我以为在 AI 视角下,数据会出现 “长尾” 的特性:,由于已往零星数据无法分析,如今每个人的 Agent 能独立处置惩罚个人数据,这对数据库等底子办法提出了新要求,好比 “如作甚环球用户提供免费数据库”,这类题目 Oracle 是不会想的。


晚点:你这个免费的话,照旧有本钱吧?


黄东旭:是有本钱,但是昨们找到了一个能让本钱变得非常低的方法。


晚点:什么方法?


黄东旭:实在全部云服务都接纳雷同的思绪。90% 的用户数据都是冷数据,没人会天天回想三岁时做了什么,真正紧张的数据大概只有近来 200 条。假如体系 smart enough(充足智能),能公道分配数据的冷热存储,此中的利润空间会非常可观。


晚点:假如你们做出这种普适性的个人数据产物,大概离 “最受尊重” 的目的很近了。


黄东旭:我的计谋是与应用层或影象层(memory layer)的互助同伴互助,为其提供 for free 的 database,支持他们服务任何目的客户,打败全部竞争对手,助力其成为全天下全部 AI agent 的 shared memory,这是昨们可以或许实现的目的。


晚点:你们为什么不本身做,而是选择互助?


黄东旭:由于昨们是 database 的 expert,并不是 AI 的 expert。


晚点:回到步伐员古典期间,我发现有个趋势在显着回潮 —— 开源。 固然开源不停存在,但对中国许多公司而言,直到 DeepSeek 在崛起后才开始关注到开源。而你们很早就选择了开源门路,尤其是在 10 年、15 年前公司建立时,中国险些没有基于开源乐成的贸易公司。


黄东旭:确实云云。 我以为做底子软件有两方面缘故原由:一是个人因素,个人发展过程中从开源社区受益良多,创业时天然优先选择这个方向;二是昨们发现,在数据库范畴要取得贸易乐成,不开源是行不通的。这是昨们得出的结论。我以为开源是战略必经之路,不开源就会 “死”。 焦点缘故原由在于 trust(信托),由于这类底子软件太紧张了,假如没有环球用户的信托底子,根本无法驻足。Oracle 运行多年已积聚信托,以是各人无条件信赖它,但新一代厥后者必须通过开源创建信托。包罗 DeepSeek 也是一样,假如它是闭源的,就不大概有外洋客户,而它是开源的,就能构建环球生态。


别的,我以为将来任何热门应用或想法,都会第一时间出现开源生态。实在这是汗青规律,当你有个好想法时,肯定不止你一个人在想,想靠信息不对称挣超额利润是不建立的,由于第二天就会有人以开源情势让它民主化。操纵体系、大语言模子是如许,Agent 也是如许。


晚点:你们选择开源,是由于行业第一是闭源吗?


黄东旭:是的。全部大生态都符合这个模式——任何新生态出现时,第一家每每是闭源的,但随后第二名肯定是开源。


晚点:这是一个循环吗?


黄东旭:我以为这是汗青规律。


晚点:为什么从操纵体系到互联网期间,第一名总是闭源?


黄东旭:由于有人想把持好想法,他们占据贸易先机,好比 OpenAI。但肯定会有第二波人美满这些想法,让其更民主化。


晚点:第二会逾越第一吗?


黄东旭:欠好说。好比 iOS 和安卓,Linux 和 Windows,很难说谁赢谁输,终极会分化出属于各自的市场。


晚点:以是汗青规律中,开源和闭源到底谁会赢?


黄东旭:为什么肯定要分胜负呢?就像安卓和 iOS,谁赢了呢?但可以确定的是,开源肯定是构建生态的一定路径。


晚点:实在讨论胜负的题目,是想知道你们选择开源是否不但出于信奉,也是贸易选择,是一种竞争计谋。


黄东旭:没错。但昨们的竞争计谋不是为了打败 Oracle,而是为了赢得头部企业大客户的信托。


晚点:末了想聊聊你对 AI 与呆板、人类关系及界限的见解。之前交换的时间,你提到了阿瑟・克拉克的《神的九十亿个名字》(The Nine Billion Names of God)。


黄东旭:谁人是从更高维度思索人类文明。小讨情节大抵是:西藏有座寺庙,喇嘛们世代相传一个传说,他们在通过某种算法分列组合 “神的全部名字”,从理论的界限来算大概有 91 亿个名字。但由于没有高科技工具,他们只能手抄,按这个速率完成必要数万年。他们以为抄完全部名字的时间,天下将迎来新维度,宇宙的意义也会显现。厥后喇嘛们发现了盘算机,于是去美国租了一台,盘算机的速率肯定比手抄快几万倍,末了把这些名字全都列出来的时间就竣事了。


为什么我会对当前大语言模子与 AI 的渗出速率感到一丝担心?根源在于人类是否已预备好欢迎如许的本领。固然我是无神论者,但从有神论角度来说,大概造物主本赋予人类充足长的时间,预计几十万乃至几亿年后才让这类技能出现,中心这段时间是让人类的心智 ready for 这项 technology,可人类却大概通过种种方式 “超频” 了,在心智还未成熟到欢迎如许的技能的时间,拥有了如许的技能。


晚点:这有大概是技能自己的特性带来的,由于技能自己就是有加快发展的特性。


黄东旭:但是人类的进化速率太慢了。这也就是为什么从人类文明团体的角度来看,像核武器这类东西未必是最好的存在,人类已经拥有了让自身文明走向闭幕的本领。我以为大语言模子也是一样,大概人类本应有更多时间发展,但如今间隔各人沦为 “人肉电池” 大概也不远了。


晚点:这里存在一个分歧,那些以为大语言模子并没有在自主学习的人,大概不会这么担心。但假如 AI 真的具备连续学习的本领,那大概会有更多新的题目出现。


黄东旭:好比昨们想象一个天下,这个天下靠下围棋来决定人的运气。假如在这个天下中出现雷同 Alpha Zero 的存在,它会刹时成为主宰者。这个例子印证了一个究竟,至少在某些封闭使命中,人工智能已到达人类无法企及的高度,当每一项工作都酿成 Alpha Zero 下围棋的模式时,那人类肯定会迎来非常大的存在主义危急。


晚点:你一方面在使用很多 AI 技能开辟新工具,公司业务也在向 AI 转型,这很大概为你们带来更多的收入与时机,这是让你感到开心的部门;另一方面,你也会有一些 concern(担心)。


黄东旭:这些 concern 的部门是关乎作为人的自我定位。就像我刚才提到的,在业务层面确实借助 AI 提拔了服从,也做了许多风趣的事。我会想当我脱离盘算机的时间,作为人的意义是什么?从前我很自大地说我写代码很锋利,但现在 AI 写代码的本领远超于我。假如不能像刚才所说的那样,将心态变化为 “黑客头脑”,就是把本身视为 AI 的利用者,我想我也会陷入严峻的存在主义危急。


晚点:这个变化对你来说是天然而然的吗?究竟你自己就很有黑客头脑。


黄东旭:我以为本身比力荣幸,由于我从不把技能本领看成界说自我的尺度,但如今许多人正把本身活成了呆板,并以此为荣。


晚点:大模子高潮之前,你肯定也在连续思索这个题目,高潮到来后,你对题目的答案有什么新的变革吗?


黄东旭:变革确实更多了。已往我风俗通过理性、逻辑息争释天下来界说人买卖义,但近来两年开始读佛教、禅宗等关于修行的册本,转向向内探索。包罗我生存中做出的许多改变,都是在思索 “作为人,我的优先级应该是什么”,实在想来想去得到一个感悟是人照旧在于体验。我开始实验不被外物界说 —— 房子、车子、 possessions 乃至本身写的步伐,都无法界说我。关键在于当下的体验。


晚点:这更像是一种人生观,和 AI 是否到来似乎没有关系。


黄东旭:我以为 AI 加快了思索这个题目的紧急性。


晚点:它既带来了紧急性,也带来了大概性 —— 由于只有先空出一些时间,才气有余裕去思索这个题目。


黄东旭:关于这个题目我也没有终极答案,但我以为答案肯定与人的独特性相干,好比哪些事变是只有人才气做的。由于大语言模子无法替你生存,也无法替你感受生命路程,那些内涵的、乃至无法用语言表达的感受,才是属于你的,而不是属于呆板的。已往昨们经常忽略这些。


晚点:你以为在体验中,“创造效果” 和 “体验自己” 是什么关系?


黄东旭:我以为效果大概没那么紧张。好比当代农业种菜的服从远高于人工,假如仅从填饱肚子的角度去思索农业,人类肯定比不外呆板。但亲身播种、品尝本身种的食品,背后会有很多差别的感受,大概种地的这个 journey(路程)自己就很特殊。


晚点:但你之前说不是说盘算机可以救济人类吗(笑)?


黄东旭:正确来说是 “解放” 人类,不肯定是 “救济”,照旧得靠本身救济本身。


解释:

[1]:形貌 TiKV 规则的诗——The Zen of TiKV

Everything is KV pair

Every KV pair belongs to a Region, but a Region contains multiple KV pairs

Every Region belongs to a Host, but a Host contains multiple Regions

Region comes from nothingness, only specifying the beginning and the end of a KV range

Initial Region is (-∞, +∞)

When Region is too big, it splits

When Regions are too small, they merge

Region can copy itself (to other hosts)

Region can also destroy itself

Regions live and prosper

[2]:元胞机 (Cellular Automaton):一种在网格上由简朴规则驱动的离散盘算模子,每个 “元胞” 根据其邻人状态演化。

[3]:沃兹尼亚克 (Stephen Gary Wozniak):美国电子工程师、步伐员和发明家,苹果公司团结首创人之一。

约翰·卡马克(John Carmack):美国闻名步伐员、游戏开辟者和技能企业家,id Software 联创,开创了《扑灭兵士》(Doom)、《雷神之锤》等游戏及其 3D 引擎技能。

[4]:约翰·凯奇(John Cage):美国前锋派作曲家、音乐理论家、作家和艺术家,以实行性音乐(如作品《4 分 33 秒》)和运用偶尔性而著名。

[5]:Doom (《扑灭兵士》):由 id Software 开辟、约翰·卡马克等人创作的第一人称射击游戏(FPS),极大推动了该游戏范例的发展和 3D 图形技能。

[6]:《神的九十亿个名字》 (The Nine Billion Names of God):阿瑟·克拉克创作的一部闻名科幻短篇小说,报告一个盘算机项目旨在列入迷的全部大概名字及其引发的宇宙性结果。


路过

雷人

握手

鲜花

鸡蛋
看帖是喜欢,评论才是真爱:

全部回复(0)

2025-7-19 02:19

热文

  • 3 天
  • 7天
返回顶部