• 周四. 6 月 13th, 2024

OpenAI 和谷歌最怕的是一张开源笑脸

作者美漪编辑靖宇

“我们没有护城河,OpenAI也没有。”

在最近泄露的一份文件中,一位谷歌内部的研究人员表达了这样的观点。这位研究人员认为,在这场激烈的AI竞赛中,虽然谷歌与OpenAI在你追我赶,但真正的赢家未必会在这两家中产生,因为有股第三方力量正在崛起。

这个力量就是“开源社区”,它才是谷歌和OpenAI最大的敌人。

而开源社区的顶流,当属Hugging Face了。作为一个AI领域的Github,它提供了大量高质量的开源模型与工具,将研发成果最大程度地惠及社区,极大地降低了AI的技术门槛,推进了AI的“化”进程。

它的创始人之一,Clément还曾公开表示:“在NLP或者机器学习领域,最坏的情况,就是要与整个科学界和开源界竞争。因此,我们不再试图竞争,转而选择为开源界和科学界赋能。”

Hugging Face创立于2016年,几年间连获5轮融资,目前估值已经飙到20亿美元,Github上的星标数量已经超过了9.8w,稳居热门资源库之列。

那么这家公司是做什么的?是如何逆袭成为开源界的“顶流”的?它的发展模式又是怎样的呢?

01 NLP开启逆袭之路

Hugging Face是一家以自然语言处理(NLP)技术为核心的AI初创公司。

它是由法国连续创业者ClémentDelangue(曾创办笔记平台VideoNot.es,媒体监测平台mention以及被Google收购的移动开发平台Moodstocks等项目)和Thomas Wolf、Julien Chaumond一起创办的,于2016年成立,总部设在美国纽约。

其中的两位创始人ClémentDelangue和Thomas Wolf都是自然语言处理领域的专家。在不断推进Hugging Face的发展的过程中,他们被视为当代NLP领域的先锋。

他们创办Hugging Face的初衷,是为年轻人带来一个“娱乐型”的“开放领域聊天机器人”,就像科幻电影《Her》里面的AI那样,可以跟人聊天气、朋友、爱情和体育比赛等各种话题。大家可以在无聊的时候跟它聊八卦、问它问题、让它生成一些有趣的图片之类的事情。

也正因如此,Hugging Face的名字来源于一个张开双手的可爱笑脸emoji。

2017年3月9号,Hugging FaceApp在iOS AppStore正式推出,就得到了不少关注,还拿到了包括SVAngel、NBA球星杜兰特等投资人在内的120万美元的天使投资。

为了训练这个聊天机器人的自然语言处理(NLP)能力,Hugging Face构建了一个资源库来容纳各种机器学习模型和各种类型的数据库,包括帮助训练聊天机器人检测文本消息情绪、生成连贯的响应、理解不同对话主题等。

同时,Hugging Face团队在GitHub上将此库的免费部分开源,目的是从用户共创中获得开发灵感。

到了2018年,Hugging Face仍然不温不火,便开始免费在线分享应用程序的底层代码。这一举动立即收到了谷歌、微软等业内知名科技公司的研究人员的积极响应,他们开始将这些代码用于AI应用程序,这个笑脸emoji也开始被广大AI开发者们所熟知。

恰巧同年,谷歌推出基于双向Transformer的大规模预训练语言模型BERT,开启了AI模型的“内卷时代”。

在这样的大环境下,Hugging Face做起了提供AI模型的服务,随之迎来了自己的“黄金时代”。

它先是开源了PyTorch-BERT;随即,又整合了它先前贡献的NLP领域的预训练模型,发布了Transformers库。

Transformers库提供了数以千计的预训练模型,支持100多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。借助Transformers库,开发者可以便捷地使用BERT、GPT、XLNet、T5、DistilBERT等NLP大模型,来完成文本分类、文本总结、文本生成、信息抽取、自动QA等AI任务,节省大量的时间和计算资源。

简而言之,Transformers库提供直接可用的模型,无需企业再度开发;因此,众多企业开始借助Transformers库,将模型应用到产品开发和工作流程中。

Transformers库也因此迅速地流行起来,成为了GitHub史上增长最快的AI项目。

Hugging Face提供的API托管业务|Hugging Face

Hugging FaceHub对所有机器学习模型开放,并得到Transformers、Flair、Asteroid、ESPnet、Pyannote等自然语言处理库的支持,其中,最核心的自然语言处理库是Transformers库。

Transformers库支持PyTorch、TensorFlow和JAX之间的框架互操作性,这确保了在模型生命周期的每个阶段使用不同框架的灵活性。而且,通过InferenceAPI(推理API),用户可以直接使用Hugging Face开发的模型与数据集,进行推理、迁移学习,这让Transformers框架在性能与易用性上达到业界领先水平,彻底改变了深度学习在NLP领域的发展模式。

Hugging Face的收费项目|Hugging Face

目前,Hugging Face的盈利业务主要有三类:

付费制会员:提供更加优质的服务和社区体验,来获得收益;

数据托管:根据不同参数需求,提供不同的按小时收费托管服务;

AI解决方案服务:目前的主打产品,围绕NLP、Vision等方向为客户提供定制化解决方案,以获得技术服务费用。

值得一提的是,从2020年开始,Hugging Face就开始做面向企业的定制自然语言模型,并推出了包括AutoTrain、InferenceAPI;Infinity、PrivateHub、ExpertSupport等,针对不同开发者类型的个性化产品。

目前,1000多家公司已经成为了Hugging Face的付费客户,主要是大型企业,包括英特尔、高通、辉瑞、彭博社和eBay。

2021年,Hugging Face已经实现收入1千万美元,从数据上来看,Hugging Face这套的“开源带动商业”的策略是成功的。

这也印证了Hugging Face的CEO,Clément所说的,“公司不需要从创造的价值中获取100%的红利,只需将其中1%的价值变现,但即便只是1%,也足够让你成为一家高市值的公司。”

简而言之,Hugging Face凭借开源社区积累影响力,而后逐步向SaaS产品和企业服务拓展。这种渐进式的转型,让Hugging Face在开源和商业化之间,取得了良好的平衡,也是其能取得成功的重要原因。这种发展策略也让Hugging Face成为了AI界独树一帜的存在,并为其他AI初创公司树立榜样。

但是,开源生态也有它自己的软肋,因为商业化的发展很可能会伤害到自然生长的社区环境。对此,Hugging Face的做法是加强对技术的管控,维护自己的开源生态;同时,向科研领域深挖。

“机器学习技术仍然还处于早期发展阶段,开源社区的潜力是巨大的。在未来5到10年,我们一定还会看到更多开源机器学习公司的崛起。”

Hugging Face的CEOClément说道。

本文源自极客公园