AI打工是虚火还是真功夫?这份报告实话实说,三类工作它最在行!
嘿,朋友们,今天小圆就来和大家聊聊最近热门的AI“打工”趋势。前两年,不管是办公室里的白领,还是技术领域的程序员,几乎都被“AI会取代多少岗位”的讨论搞得焦虑不安,不少人甚至悄悄学习新技能,以防自己被淘汰出局。 打破“技能满分”的神话 咱们上学时都遇到过那种学霸:考试门门高分,但真要处理复杂任务,比如组织一次班级活动,就手忙脚乱错误百出。现在的AI,其实就有点像这种理论派高手,单个技能拿出来可能很厉害,但真放到职场实战中,可靠程度就得打折扣了。 之前对AI的测试,大多集中在它的“独立技能”上,比如让它写一段代码、回答一个专业问题,或者生成一张图片。这种测试就像考驾照时只考倒车入库,AI可能表现完美,但光会倒车入库,肯定没法当网约车司机赚钱养家。 接单、导航、与乘客沟通、安全送达目的地这一整套流程,才是真正的“工作”。这就是研究中提到的“端到端性能”,而以前的测试根本测不出这个。RLI研究就是为了打破这种“技能强就等于工作能力强”的错觉。 它模拟的不是考场,而是真实的甲方验收现场:比如甲方需要一张“既有恐怖氛围又不失可爱”的万圣节促销海报,给的材料是杂乱的Excel数据、零散的图片素材和CAD图纸,让AI自己搜集资料、整合思路、输出成品。及格线只有一条:拿出人类专家级别的、甲方愿意付钱的成果。 史上最严“职场大考” RLI研究彻底抛弃了那些几分钟就能搞定的简单任务。研究人员直接从Upwork等专业外包平台,挑选了240个真实的付费项目作为测试题。这些项目覆盖了视频制作、3D建模、代码开发、文案策划等23个主流领域,全是企业实际需要的服务,可不是随便编的模拟题。 这些任务的难度有多高?数据来说话:人类专家完成一个项目平均要花28.9小时,按每天工作8小时算,差不多要连续干3天半;最难的项目甚至需要450小时,相当于一个人全职干两个月才能做完。 对比一下就知道有多严格了。以前测试AI的题目,比如写个简单的贪吃蛇游戏,人类10分钟就能搞定,而这次的任务量是之前的几十倍甚至上百倍。更关键的是,这些项目都有明确的商业要求,比如代码要能运行、视频要符合品牌风格、设计图要能直接印刷,和咱们职场里接的活一模一样。 为了让AI发挥出最佳水平,研究人员还给它配齐了“装备”:能调用专业工具,比如用专门的模型生成图像和视频;还根据不同AI的特点分配了“工位”,支持桌面操作的AI就配齐鼠标键盘,像人类员工一样办公,不支持的就给命令行界面,让它通过代码调用工具。 最高2.5%自动化率的现实 测试结果出来后,确实有点让人意外。AI的表现远没达到“替代人类”的水平,表现最好的AI模型Manus,自动化率也只有2.5%;名气很大的GPT-5才1.7%;Gemini 2.5 Pro更惨,只有0.8%。 失败的案例更是五花八门,完全暴露了AI的“短板”:要求做8分钟的宣传视频,AI只弄出8秒就停了;做复杂建筑的3D渲染,里面的房间布局和视角全是矛盾的;开发的小游戏倒是能运行,但画面粗糙得像儿童简笔画;设计海报时文字要么乱码,要么有错别字。 不过咱们也不能把AI一棒子打死,它也有自己的“舒适区”。在音频简单剪辑、基础图片广告设计、数据表格整理和简单爬虫这些领域,AI的表现还算不错,能快速完成基础工作,这说明AI在创意类和轻量技术类的基础任务上有潜力。 但遇到需要严谨逻辑、流程衔接和细节把控的复杂任务,就完全跟不上了。更现实的是经济账:240个项目总价值14万多美元,表现最好的Manus只“赚”了1720美元,折算下来用AI最多只能比雇人节省3.9%的成本,根本算不上“性价比之选”。 RLI研究更像一个“指南针”,它告诉我们AI的发展方向不能再只追求做题满分,而是要向“实战交付”升级。与其焦虑被AI取代,不如学会和AI合作,用它提升自己的工作效率。毕竟技术从来都是人类的工具,AI的“能力”再强,也需要人类来引导和把控。相关问答





