电话:020-66888888
baidu搞了个AI「黑科技」,让科技圈大佬们抢镜贺
作者:[db:作者] 发布时间:2025-01-28 08:35
呆板之心原创作者:Panda、杨文用AI过一个赛博新年。自从有了 AI,过个年都相称「有戏」。再有三天,就要进入蛇年了。各家 AI 厂商都憋足了劲儿想搞波年夜的,AI 百口福、AI 写对联、AI 贺岁短片齐备整上,乃至另有跟亲戚豪情对线的 AI「嘴替」。百度此次也没闲着,推出了「AI 贺年」运动,只要一张照片跟一句 prompt,大家都可收费定制贺年贺卡。比方,让「硅谷钢铁侠」马斯克给特斯拉贴福字:奥特曼在春晚舞台上撒红包:或许让「皮衣刀客」黄仁勋身穿喜庆的衣服点鞭炮:再来句祝愿语,一张年味实足的春节贺卡齐活。生手看热烈,行家看门道。百度这一贺年神器的背地,离不开其自研的 iRAG(image-based RAG)技巧。凭仗百度搜寻的亿级图片资本跟强盛的基本模子才能,它能够天生种种超实在的图片,团体后果远远超越文生图原生体系,不只去失落了 AI 味儿,并且本钱很低。先来看看咱们的一手实测结果。蛇年春节,你能够 AI 贺年对今世年青人来说,春节贺年几乎就是年夜型社逝世现场。不只要接收七年夜姑八年夜姨的「魂魄拷问」,还要搜索枯肠找话题跟不熟的亲戚「尬聊」。即便是发个贺年短信也得重复编纂,如果太一般,总感到没啥诚意,收回去怕被吞没在信息洪流里。如果太花哨,又显得不真挚,让人感到在成心堆砌辞藻。如果用收集热梗,还担忧晚辈们看不懂,或许一不警惕闹出误解……总之,这个年,一拜一个不吱声。而百度搜寻的「AI 贺年」恰好能够让年青人阔别这些为难。弄法也很简略。直接在百度搜寻「祝愿语」,点击「做贺卡」停止案牍调剂,而后在「创意照片」中上传一张单人正脸图片,再输入 Prompt,就能天生一张唯一无二的新年祝愿贺卡。比方咱们让名流来充任贺年年夜使,玛丽莲·梦露、马斯克乃至是甄嬛…… 只有将参考图供给给 iRAG 加持的百度文生图年夜模子,再用文本描写一下本人的创意,就能取得专属的贺年图片。能够看到,天生的图片十分精准地保存了人物的身份特点,同时也严厉地遵守了用户的文本指令。在保障了超高品质的同时,天生的场景与物体也不呈现良多文生图模子罕见的幻觉景象。假如你更乐意本人出镜,但又是 P 图苦手,也完整能够交给「AI 贺年」代庖 —— 只要一张你本人的照片跟一句话,就能天生或稳重、或活跃、或妙趣、或古灵精怪的贺年图。别的,你还能够让参考图片中的人物呈现在任何你设想的场景中或去做任何你设想的事件。比方让奥黛丽・赫本衣着西南年夜花袄写对联,乃至还能用它给小李子分解相亲照片。在测试进程中,咱们还留神到,百度 iRAG 驱动的文生图模子不只存在十分强盛的抗幻觉才能,并且还在汉语对齐方面下足了工夫。咱们晓得,在文生图时,应用成语的成果每每难以预感,由于良多文生图模子在面临成语时每每会直接取用其字面含意,从而天生重大偏离冀望的成果。举个例子,假如咱们的提醒词是「帮我画一个虎头虎脑的年夜胖小子」,那么文生图模子可能会画出一个真正山君头的人物来。不外,现在的百度凭仗本身在中国文明上的沉淀,能在很年夜水平上防止这种语义懂得上的过错。再比方毂击肩摩、两小无猜这类成语,乃至是唐伯虎点秋喷鼻,百度文生图模子齐备搞得定。已经中国美食也让文生图模子们反复「翻车」。驴肉火烧成了驴肉汉堡、啤酒鸭成了「泡」在啤酒里的烤鸭。而基于 iRAG 驱动的百度文生图模子现在也已霸占这一困难。基于图像的 RAG 毕竟怎样炼成?既然这个风趣利用的背地是百度自研的一种名为 iRAG 的技巧,那么究竟啥是 iRAG?所谓 iRAG,就是检索加强的文生图技巧,要想把它搞清楚,咱们就得先懂得什么是 RAG。什么是 RAG?RAG(检索加强天生)的观点实在并不庞杂。简略来说,就是让年夜模子在履行天生之前参考或援用某些数据,而这些数据平日并不在该年夜模子的练习数据集内,属于专有或私无数据。应用这些数据,RAG 能够晋升呼应的相干性,从而无需从新练习模子就能晋升年夜模子的输出。RAG 尤其明显的一年夜上风是能够下降年夜模子的「幻觉」成绩 ——RAG 可经由过程援用外部常识无效增加天生内容呈现现实性过错的成绩。恰是由于这些上风,RAG 曾经在谈天呆板人等 LLM 利用中失掉了普遍利用。RAG 技巧比年来开展敏捷,而且能够显明分红多少个阶段。起首,RAG 出生时,恰逢 Transformer 架构崛起,其感化重要是经由过程预练习模子来整合额定常识,从而加强言语模子。厥后,ChatGPT 横空降生,LLM 表示出了十分强盛的高低文进修(ICL)才能。RAG 的研讨偏向也转向了为 LLM 供给更好的信息,从而使其能够在推理阶段答复愈加庞杂、须要更多常识的成绩。这也是 RAG 高速开展的时期。之后,跟着研讨提高,RAG 也不再限于推理阶段了,还开端与 LLM 微调技巧联合在一同。当初,RAG 这个研讨偏向能够说是百花齐放,但其中心流程基础能够归纳为三个阶段:索引(Indexing)、检索(Retrieval)、天生(Generation)。下图就展现了一个典范的 RAG 利用。在这个示例中,用户先向年夜模子提出一个波及事先最新消息的成绩,而这个消息天然弗成能呈现在该年夜模子之前的预练习数据中。于是,RAG 就能够弥补上这个空缺 —— 网络与该用户查问相干的消息文章,再将这些文章与原始成绩一同组分解一个片面的提醒词供给给年夜模子;如许一来,年夜模子便能够基于丰盛的信息天生谜底了。固然,现现在的 RAG 技巧要远远愈加多样化,还会采取良多高等技巧及模块化方式。百度的 iRAG 就是一种进阶版的 RAG 技巧,是 RAG 向多模态的泛化与拓展。iRAG = 图像 + RAG在此之前,RAG 采取的外部常识库平日是文本数据或表格等构造化数据,而百度胜利将这一技巧思绪利用在了图像数据上,并胜利自立研发了 iRAG(检索加强的文生图技巧 / Image-Based Retrieval-Augmented Generation)。该技巧可处理文生图体系天生成果实在感低以及幻觉成绩。良多文生图体系都存在「一眼 AI」的成绩,简而言之就是太假了,之前一个十分有名的例子是「威尔・史女士吃意年夜利面」。晚期的文生图体系既不克不及很好地复原人像,也无奈很好地处置事物之间的互动。别的,与年夜型言语模子一样,文生图年夜模子同样也存在幻觉成绩,也就是说这些模子可能会适度脑补,天生虽有实在感但却不合乎现实情形的图像。百度开创人兼 CEO 李彦宏曾在百度天下年夜会 2024 上举了一个例子,一些文生图模子在天生「天坛」的图像时会疏忽事实情形,自即将天坛加高一层。这就是文生图模子广泛存在的典范幻觉景象,并会在很年夜水平下限制多模态年夜模子的范围化利用。iRAG 基于百度搜寻的亿级图片资本跟强盛的基本模子才能(文心年夜模子),处理了文生图体系的两年夜中心难点:实在感缺乏跟幻觉。经由过程检索百度搜寻的年夜范围图像数据库,iRAG 可经由过程参考跟援用实在的图像元素为文生图的实在感跟现实性保驾护航。固然,须要指出,iRAG 并不会直接援用数据库中的图像元素,而是会基于检索到的图像停止合乎文本提醒词请求的重绘。比方说,假如图像数据库中仅有一张天坛的正面照片,而用户想要天生一张天坛的航拍图,iRAG 就会在天生这张航拍图时以数据库中的正面照片为参考,保障变更视角后的天生图片不会偏离天坛的实在样貌。不只如斯,百度还胜利压低了 iRAG 的盘算本钱,能以十分快的速率、近乎零本钱地为用户供给效劳。百度本人给出的总结是:「无幻觉、超实在、没本钱、破等可取」。据懂得,百度是在 2024 年终开端研讨处理文生图模子的幻觉成绩,推动 iRAG 的相干研讨,事先 OpenAI 刚公然展现了 Sora 天生的多个高清视频,惹起了无穷遥想跟探讨。多少个月后,在 Sora 仍然还在内测时,百度开端公然展现本人的研讨结果 —— 基于 iRAG 的文生图体系曾经能天生照片级实在感的图像!在百度天下年夜会 2024 上,李彦宏展现了爱因斯坦周游天下的例子,让这位无不知不觉的蠢才物理学家胜利打卡长城、鸟巢等浩繁地标。之后他更是自负地表现:「在寰球范畴内,百度的 iRAG 才能是最当先的。」当初,时光又曾经从前了两个多月,百度 iRAG 的才能又失掉了进一步精进,不只基本年夜模子更强了,并且百度还为之开辟了更多利用场景。经由过程百度搜寻 APP,百度也拉低了应用 AI 的门槛,让任何人都能应用前沿的 AI 文生图一展本人的设想力,做出巧妙、好玩又有效的视觉内容。而且,你不只能用 iRAG 制造新年贺卡或名流乱入图,也能将其作为制造产物宣扬图的出产力东西。举个例子,从前为了拍摄产物宣扬图,你可能会聘任专业的拍摄团队,偶然候还须要聘任产物模特 —— 有些汽车宣扬海报的制造本钱可能会到达数十万,但当初有了 iRAG,你只要要将本人的产物图供给给年夜模子作为检索数据源,而后用文本描写你想要的场景,百度 iRAG 加持的 AI 就能为你直接天生心仪的产物宣扬图。别的,凭仗出色的参考援用才能,百度 iRAG 还十分合适一些须要坚持身份分歧性的文生图利用,比方制造持续的漫画或画本、经营虚构偶像、影视作品观点计划、开辟品牌 IP 抽象……储藏无穷可能,iRAG 吹响智能体之年序曲前段时光,有不少 AI 从业者都对 2025 年做出了一个相似的断定:这一年会是「智能体之年」,也会是 AI 利用年夜暴发的一年。良多 AI 从业者都以为 2025 年是智能体之年,此中也包含 OpenAI 总裁跟 CEO 等当初,2025 年才刚过不到一个月,以蛇年春节为契机,大批 AI 利用就曾经出生。能够说蛇年春节会是有史以来 AI 浓度最高的一个春节,也会为「智能体之年」吹响一个完善的序曲。「AI 贺年」只是一个出发点,也是一场破足中国传统节日文明的技巧展现。iRAG 技巧必定还将进一步拓展其利用场景,视觉计划类任务固然是最基础的。斟酌到 iRAG 潜力,其很可能会成为将来视觉计划任务的一年夜基础构成,乃至有可能实现视觉计划中超越一半的基本任务量。乃至或者,街角煎饼摊的老板也能计划出本人的高等菜单。视觉计划之外,iRAG 也可能会成为很多智能体的中心组件。简略设想一下,咱们就能为其找到大批有代价的利用场景,包含基于事实场景创立游戏天下、依据老照片乃至画像停止人像还原、让咱们跟爱好的动漫人物同框合影,另有天生靓丽帅气的春节相亲照…… 就正如基于文本跟数据库的 RAG 让大批 AI 利用变得更有代价一样。一拍板脑风暴,咱们就能设想出 iRAG 包含的无尽可能性。当初,这一技巧就曾经摆在咱们面前了。经由过程百度搜寻,咱们能够零本钱且疾速地捉住春节假期这个一年一次的年夜型营销契机,用 iRAG 为咱们产物乃至为咱们本人代言。
电话
020-66888888