OpenAI 都在用的 AI 招聘2 年内实现 7500 万美元 AR
Mercor 是一家由三位 21 岁的 Thiel Fellows 创办的 AI 招聘初创公司,是科技行业增长最快的公司之一,去年 9 月 ARR 月增长率已经达到 50%,到目前,公司已经实现了 2 年内达到 7500 万美元 ARR 的突破,主要收入来自包括 OpenAI 在内的 AI 实验室。Mercor 近期完成 1 亿美元 B 轮融资,估值达到 20 亿美元。
Mercor 作为连接候选人和招聘公司的平台,候选人上传简历后 Mercor 会通过 AI 面试筛选合适人才,招聘公司描述需求后 Mercor 会自动推荐合适候选人,自动化了整个招聘流程,产品体验非常好,招聘成功率高。
本次编译整理了 20VC 对 Mercor 创始人兼 CTO Adarsh Hiremath 的访谈。Adarsh 认为数据标注和人才评估实际上是同一件事,释放下一代智能的瓶颈是专家级的人类数据,而非合成数据。未来将出现强大的领域专用模型,解锁大量不同行业的应用场景。随着 Coding Agent 的发展,应用构建将变得更简单,只有具备网络效应的公司才能更好地生存。
Mercor 的三个创始人分别是 Brendan Foody(CEO)、Adarsh Hiremath(CTO)和 Surya Midha(COO),三人在创业前就已经互相认识很久了。Adarsh 第一次见到 Surya 是在 10 岁的时候,两个人非常合拍,因为他们是唯二想参加高中辩论的小学生,最终二人进入了同一所高中,并在高中遇见 Brendan。三个人成了辩论伙伴,并且参加了很多国家级的辩论比赛。
Adarsh 喜欢把辩论伙伴关系看作是自己的第一次创业,认为辩论和创业在很多方面很相似,比如选择合适的伙伴、需要有巨大的责任感。
三个人开始合作时并没有什么商业计划,只是一起开了一个开发工作室,想快速学会如何开发软件来帮助初创公司,最终招募了一些来自印度的优秀人才。但他们很快意识到,真正重要的其实是人,不是软件。三位创始人是通过人工的方式找到了这些人,因此开始思考是否能把这个过程自动化,这是 Mercor 将面向候选人的功能自动化的开始。接着,他们意识到如果公司需要手动筛选候选人,这是无法实现规模化的,所以也必须自动化面向公司的功能。因此,Mercor 诞生。
Adarsh 认为招聘工作是公司里最有声望的职位,因为招聘人员掌握着公司人才的流入和流出,几乎可以通过人才的流动了解一个公司的一切。所以公司的招聘职能是最被低估和忽视的部分,这也是创建 Mercor 的原因之一。同时,团队认为应该以更少的人力达到更高的招聘效率,这个观点与招聘的重要性是相辅相成的,因为只有在能找到合适人才的前提下,才能谈及提高效率。要解决匹配问题,即找到合适的人才,是非常困难的,尤其是用无法规模化的人工流程。随着时间的推移,Adarsh 越来越明显地意识到,下一代 SaaS 将取代端到端的服务。这个认识在某种程度上也是建立 Mercor 的原因之一。
Adarsh 在哈佛就读期间,基本就已经尽可能避免上课。当时 Mercor 还没有筹集到种子轮资金,只有一点点收入,创始人们也没有 Thiel 奖学金,但 Adarsh 就想和最好的朋友们一起工作。
Adarsh 认为虽然可以试图理性地分析是否应该退学或者创业,但很多时候是否退学是一个情感上的决定。Adarsh 最终在三个人在 Palo Alto 有了办公室的时刻决定退学来全职创业。
Mercor 团队的工作时间是 996(早上 9 点工作到晚上 9 点,一周工作 6 天),Adarsh 倾向于把 996 看作是选择团队成员带来的副作用,而不是目标。Mercor 在选择团队成员的时候,非常谨慎地挑选了对 Mercor 使命有深切关注的人,带来的副作用就是员工不想等到周一才开始推动公司前进,大家是喜欢彼此的陪伴,喜欢自己在做的事情。
在某种程度上,这并不是 Mercor 独有的现象。历史上,所有成功的公司都有过相当强烈的企业文化,这是初创企业的一个特点,以可持续的方式比别人更努力才能成功。这种动力是非常有感染力的,Mercor 团队中的每个人都感到充满能量。
Mercor 实现了连续好几个月 50% 的增长,Adarsh 认为这是对 Mercor 一次持续的压力测试。很多事情会在增长的过程中不断地出问题,包括工作流程、招聘人才等。最重要的是,团队中的每个人都需要不断超越自己,不断重新定义自己能做的事情,承担新的角色。
Adarsh 认为,在公司高速增长的时候,文化的扩张比软件的扩张更难。创始人在最初的 20 人中创造的文化,在某些方面,可能是最强的文化,但需要确保这种文化在公司成长、做新事情和新成员加入时保持强大,是很具挑战性的事情。但在某种程度上,这也是打造一个传奇公司最重要的一部分。
考虑 Mercor 最终市场规模的时候,首先要考虑到有大概几亿的求职者,再考虑每个人会换多少工作。忽略掉 Mercor 为 AI Agent 创造的所有工作,集中在只为人类创造的工作上,Mercor 为每个概创造了几十个职位。Mercor 已经创造了数千亿个职位,构建了统一的劳动力市场,这意味着任何公司想为特定的职位或任务招聘员工,都可以通过 Mercor。而任何求职者想考虑某个公司提供的特定职位或任务,也可以通过 Mercor。Mercor 能够无缝地解决跨公司、跨岗位的匹配问题。
Mercor 的整个招聘过程都是自动化的,从候选人听说 Mercor 并通过职位列表进入 Mercor 平台,Mercor 拉取候选人的简历、薪资预期,基于候选人的背景和职位要求进行个性化面试,直到候选人工作获得报酬,整个过程都是自动化的。
Adarsh 认为目前一些最成功的产品或公司收入非常有粘性是因为产品能为创造出“六星级”体验,这也是 Mercor 收入快速增长的原因之一。
之前 Mercor 团队认为,chat 是未来所有 UI 的核心,因此 Mercor 的初始版本就是围绕 chat 界面构建的,那时只能通过 Mercor 的聊天机器人来雇佣人才,后来团队认识到,虽然 chat 界面很重要,但也需要与其他方式结合使用,比如结合 LMS(学习管理系统,Learning Management System)等工具。团队认为,未来网页应用程序会消失,所有的网页应用程序交互方式将仅仅通过 chat 来实现。用户不需要点击按钮来雇佣某人,而是直接告诉聊天机器人雇佣那个人。Adarsh 认为这种方式在将来可能会实现,但团队当时的时机选择稍微有些早了。
Adarsh 认为招聘是否成功完全取决于职位所需要的人才,是一个非常因职位而异的过程。不同的公司看重的东西不同,而根据看重的因素,Mercor 能调整人才预测。
Mercor 为公司提供各种各样的人才,涵盖从软件工程师到律师、医生、金融分析师、顾问等各类职位。Mercor 的一个重要特点在于并不是为某个特定职位量身定制,而是构建了能够很好通用的技术。比如在 AI 面试官上,Mercor 面试官系统能够立即处理候选人的背景信息,然后提供定制化的面试,不管这个人想要申请的是什么职位,都可以在不到 10 秒钟的时间内启动面试系统。Adarsh 认为让一个 Agent 自动收集关于某个人的信息,并准备一个超越人类级别的面试,是可以实现的,而且几乎所有的职位都可以这么做。
目前,客户不断扩大与 Mercor 的合作关系,净留存率大大超过 100%。只要客户继续扩大合作,意味着 Mercor 在找到合适的人才方面做得很好。
AI 底层模型的 landscape 变化得非常快。Mercor 使用过多种模型,对OpenAI的模型非常满意,在某种程度上一直在使用 OpenAI 的模型。
如果能在底层大模型的某个方面做出改善,会对业务和产品带来提升。比如在 AI 面试官上,当模型有所改进时,Mercor 平台上申请人的体验也会显著提升。Adarsh 表示 Mercor 一直以来关注的重点就是,随着模型不断变得更强大,Mercor 能否借势不断改善产品。
Mercor 目前没有销售团队,除了创始人以外,没有一个人专门从事销售工作。现在签约的客户主要是通过客户主动联系,有人通过 Mercor 雇佣过人才,听到过关于 Mercor 的好评,然后联系到 Mercor,接下来再继续合作。
Adarsh 认为客户通常最关注的不是价格,而是质量。如果 Mercor 能可靠地以软件的成本找到顶尖的 0.1% 或 1% 的人才,并让客户满意,那么收取多少费用通常就是客户次要考虑的问题。
当用户进入一辆 Uber 车时,4.8 星的司机和 4.9 星的司机之间其实没有太大的区别,因为他们的工作差别不大。但在 Mercor 的场景中,顶尖的 0.1% 人才和 20% 的人才之间有巨大的差距。当 Mercor 能够以软件的成本找到数百倍的优秀人才时,客户会觉得必须使用 Mercor。通常是在前几个候选人开始与客户合作的时候,客户会意识到 Mercor 的价值。
费用是按个案情况来定的。对于某些客户,Mercor 的费用可能超过 30%,而对于其他客户,则可能更少。
Mercor 开始于印度用户,因为 Mercor 创始人的父母是从印度移民到美国来的,Mercor 选择从他们曾就读的学校开始招聘活动。
促使 Mercor 开始于印度用户的原因还在于,Mercor 曾通过 Facebook 广告找到了团队中最好的工程师之一。可当时的情况是 Adarsh 亲自面试了他,他却没有通过面试,但他给 Adarsh 发了一条很长的消息,告诉 Adarsh 自己在面试中到底出了什么问题以及如何改正,所以 Adarsh 认为他是符合 Mercor 的标准的,由此 Mercor 更加关注到印度人在劳动力市场就业的问题。
目前通过 Mercor 找到工作的劳动力的最高占比是来自美国,大约占比 60%。客户也主要是美国的客户。
对于与 Mercor 合作的很多实验室来说,Mercor 能够识别出哪些人在特定领域内是杰出的,并让这些人跟实验室合作,这实际上也是 Mercor 长期目标的推动力。Mercor 想要建立一个全球统一的劳动市场,需要大量聪明的人加入,需要能够预测他们的工作表现,并找出他们应该做什么。
种子轮的时候,三位创始概只有 19 岁。他们在融资之前将办公室搬去了纽约。对 Adarsh 来说,相比于种子轮的资金到账,更令他不敢相信的时刻是他们在 Gusto(注:美国一所薪酬计算公司) 上把自己的薪水调整到每月 500 美元。之后 Mercor 完成了种子轮融资,融资进展非常快。
B 轮融资大约是在 A 轮融资的六个月后。当时 Mercor 也并不专注于融资,自身业务收入已经达到了数千万美元,团队的想法是继续专注于工作,但希望和 Felicis 合作,所以选择了融资。在稀释比例上,稀释了 5% 的股权就获得了 1 亿的资金。
虽然融资顺利,但 Mercor 的三个创始人最享受的是推动业务发展。融资时,团队并没有完全意识到增长会如此迅速。团队知道会有增长,并且对增长充满信心,但增长速度还是超出了预期。
Adarsh 认为,当人们筹集到资金后,如果认为必须立刻花掉这些资金是很危险的。Mercor 的目标不是马上花掉这 1 亿美金,Mercor 目标是建立一个统一的劳动市场,这需要很长时间,所以 Mercor 只是想确保有足够的资金储备,以应对长期的发展。
市场上有投资人认为 Mercor 主要是在为基础模型做数据标注,但Adarsh 认为数据标注和人才评估实际上已经变成了同一件事。五年前,提到数据标注时,基本上就是一个众包的问题。假设 Waymo 想要一些图像标注,那就会让全世界的人来画框,标出停车标志,以便让模型更好地分类停车标志。但今天,数据标注的工作性质发生了很大变化。GPT-4 或其他模型在某个特定领域可能并不好用,因此,实际上需要一个领域的专家来让模型在该领域更好。找出谁是这个领域的专家,实际上是 100% 的人才评估问题,这正是 Mercor 的完美应用。
Adarsh 认为未来很多数据都会是人类数据标注,而非合成数据。以 Eval 为例,Eval 必须由人类数据创建,因为为了判断模型在特定任务中的表现好坏,必须有一个人类创建的测试集在该任务上有超越模型的表现,人类在这个过程中扮演重要角色。此外,像 SFT、RLHF、RL 等训练下一代模型的方式都需要专家级的人类数据标注来帮助模型提高。
很多人,包括 Groq 的 CEO Jonathan,都认为合成数据的质量更高,因为合成数据避免了互联网上低质量数据的干扰,因此使用高质量的合成数据,而不是低质量的人类数据,模型性能会呈指数级提高。但 Adarsh 认为这个观点是错的。合成数据和人类数据并不是零和博弈的关系,即使在人类数据对下一代模型至关重要的世界中,也并不意味着合成数据就不重要。但在很多情况下,解锁和释放下一代智能的瓶颈仍然是专家级的人类数据。低质量的人类数据肯定不会让模型变得更好,而高质量的人类数据却可以做到。这正是一个人才评估问题。提高数据质量的关键是找到合适的人,而这正是非常难做到的。
Adarsh 认为数据比计算或算法更成为限制模型改进的瓶颈,但计算和算法也是难题的一部分。计算、数据和算法都会在推动 AI 进步、解锁下一代智能的过程中发挥作用。但我们所进入的时代,确实需要专家级人类数据让模型在特定的应用场景中变得更好。这种情况会持续很长一段时间,因为目前还有很多任务是模型无法完成的。
在下一代模型上,整个市场正在转向强化学习,Mercor 团队已经在 o1、o3 和 DeepSeek 的模型中看到了这种趋势。Adarsh 认为未来会出现在特定领域中非常强大的模型,这些模型能够进行极为出色的推理,这将解锁大量不同行业和领域的使用场景。
Adarsh 认为未来会进入多种模型服务不同用例的世界。目前已经有很多应用层公司都在利用这些专业化的模型来解决自己的问题。对 Mercor 来说,重点领域是招聘,Mercor 在招聘上的能力已经远远超过了传统的专家招聘经理。对于其他公司来说,可能是特定领域的财务分析。所以,在这些不同的应用场景中,每个公司都需要根据自己的需求提升模型的表现。最后会有少数几家公司能够构建基础模型,供其他公司基于基础模型进行发展,比如 OpenAI。不会有 20 家公司能够打造基础模型,并且像 OpenAI 那样被广泛应用。
现在有一个观点是,很多年轻的优秀人才被告知不应该再学习计算机科学,因为计算机科学正变得越来越自动化,现在 41% 的代码是由 AI 编写的,五年后,这个比例会大幅增加。而 Adarsh 的看法是,编程在今天比以往任何时候都更重要,编程只是将以不同的形式发生,从汇编语言到 Python 的跃迁可能比从 Python 到自然语言的跃迁还要大。未来定义编程的方式将会非常不同,或许今天计算机科学中只拥有一般技能的人,将可以指挥成千上万的超级Coding Agent,做到曾经认为不可能的事情。用英语编程将会变得非常重要。
Adarsh 现在在编程的时候会使用很多 AI 工具,比如 Cursor。Mercor 团队的很多成员都在用 Cursor,Cursor 让原本需要大量时间才能完成的工作变得非常简单和优雅。比如在测试上,借助几个 prompt,可以为应用程序生成比任何人想象的都要彻底的测试套件,这在以前是做不到的。又比如,如果用户想把代码库中的某个部分的风格带到另一个部分,也可以在 Cursor 中轻松完成。Adarsh 认为随着 Coding Agent 变得越来越强大,软件将很快变得商品化(softwares commoditize)。
软件商品化意味着人们将能够比历史上任何时候都更快速地构建应用程序。也意味着,在软件成本接近零的世界里,只有那些能够成功建立在网络效应上的公司才能生存,即使那些公司将整个代码库免费赠送出去,也能够生存下来,比如 Meta 和 Airbnb。
Adarsh 认为,当实现 AGI 或者思考 AGI 时,会涉及到更多有经济价值的工作。当越来越多的具有经济价值工作的自动化程度提高时,research 在某种程度上也会被自动化,这也属于 AGI 的范畴。
如果一两百年后,模型能够完成所有工作,人类不再需要工作,那社会将变得截然不同,所有人类都会过上全民基本收入的生活(注:全民基本收入是指没有条件、资格限制,不做资格审查,每个国民或成员皆可定期领取一定金额的金钱,由政府或团体组织发放给全体成员,以满足基本生活条件),每天玩电子游戏,或者做些其他事情。
但在那之前,会有许多任务是模型无法完成的,可能是有特定经济价值的任务,比如顾问的工作或者某类工程学任务,甚至更为小众的工作,比如让模型在某个特定爱好上变得更好。人类将需要填补这些空白,尤其是在“长尾”领域。很多人对人类和 AI 之间的关系有一种单向的理解,即人类做不到的事情交给 AI 去完成,但更现实的情况是对于特定的应用场景,AI 可能能帮助人类完成 60%、70% 或 80% 的工作,但剩下的 40%、30%、20% 还是需要人类来完成,找到能够完成这些剩余部分的人类将变得越来越困难,也因此更为宝贵。
未来的劳动市场会朝着专业化和复杂化发展,这意味着未来 50 年看到的工作将会更加专业化,而且通常需要具备更高水平专业知识的人才。
如前文所说,随着 Coding Agent 的强大,软件会渐渐商品化(commoditize),只有有网络效应的公司才能更好地生存。
今天 Mercor 的网络效应可以分为两个类别。第一类是像 Uber 或 Airbnb 这样劳动市场上的网络效应,每增加一个通过 Mercor 招聘的公司或 Mercor 上的候选人,就会增强市场力量,因为会有更多优秀的人才和公司可供选择。第二类是有关工作预测的数据飞轮,Mercor 能够看到哪些人在工作中表现得很好,并且知道他们表现好的具体原因,并利用这些端到端的数据,帮助 Mercor 找出最适合某个职位的人,即使他们自己都未必知道这一点。