您的位置:首页 >财经 >

这个春节P图不求人!小红书开源图像编辑新SOTA

2026-02-12 20:23:09    来源:量子位

AI生图领域,又出了个“狠角色”。

今日,小红书基础模型FireRed-Image-Edit正式亮相。


(资料图片)

看似“低调”,实则战绩惊人——其在处理复杂编辑指令、风格化转换,及高精度文字编辑等多个核心指标上,展现出超强实力。

对比结果显示,FireRed-Image-Edit凭借更精准的理解力、更强的ID保持度及高效的架构,在多项权威测试中脱颖而出,在ImgEdit、GEdit等多个榜单中取得了SOTA,达到业界领先水平。

△主流榜单和自建评测集上的指标对比

这种高效架构背后的技术底座,来自小红书Super Intelligence Team在图像生成与编辑领域的一次重要探索。

划重点!目前该项目代码、技术报告、demo网页已开源,模型权重也即将在未来几天开源。

△人工评估胜出率

硬核评测指标与全链路技术底座

FireRed-Image-Edit之所以能被称为“狠角色”,不仅在于榜单上的惊艳表现,更源于小红书团队为其量身定制的一套“高难度考卷”与“进阶版练功房”。

1、重新定义标准:RedEdit Bench

在AI生图领域,现有的基准测试往往难以覆盖用户真实的复杂需求。为此,团队推出了RedEdit Bench这一深度评测方案。

  • 全场景覆盖:包含15个子任务。除了常规的画面增删改外,该评测集还前瞻性地纳入了人像美化、低画质增强等高频实战场景。
  • 真实严苛:对比实验表明,相比ImgEdit和GEdit,该Bench对编辑模型通用能力的评估精度更高。

该Bench随后会开源,以期为开源社区对图像编辑模型的评估建立新维度的标准。

2、核心战力来源:数据构造与三阶段训练

有了严苛的考卷,如何“培养”出高分考生?

FireRed-Image-Edit依靠的是一套极具效率的数据引擎与训练逻辑

首先来看数据引擎方面,FireRed-Image-Edit构建了一套图像编辑数据生产引擎,从“快速、可控、精准”出发,将复杂编辑需求拆解为可组合的子任务,并通过三条路径规模化产出训练对

  • 指令控制的专家模型合成;
  • 结构化控制(如分割/关键点/深度等)的专家模型合成;
  • 模型无关的模板化合成(如3D/布局/文字)。

针对长尾编辑任务样本稀缺问题,采用“检查—补齐”的定向补数流程,由引擎快速生成针对性数据,并配合三层级去重、十余种质量清洗算子与严格一致性守门员,确保数据的指令遵循、视觉自然度与内容一致性

而在模型训练方面,当前模型框架参考主流编辑模型框架,模型通过三阶段训练来完成能力的进阶。

  • 预训练阶段:通过多条件感知桶采样来平衡不同的编辑任务,并通过随机动态指令来提升模型的指令泛化理解能力,并通过前置的embedding抽取来提升训练效率;
  • 微调阶段:通过高质量数据的引入,来提升模型表现;
  • 强化学习阶段:通过非对称梯度优化来强化正样本反馈,基于OCR奖励的diffusionNFT来提升文字编辑准确性。
模型核心能力展示

FireRed-Image-Edit的强大,源于对“编辑”二字的深度理解。

并非简单重绘,而是实现精准控制,其核心能力提升如下。

1、指令遵循一致性

指的是模型引入随机指令对齐的机制,通过随机打乱和动态重组prompt,来使模型能真正理解语义与图像的对应关系,而非死记硬背。

示例1:

示例2:

2、文字编辑

FireRed-Image-Edit创新性地提出了Layout-Aware OCR-based Reward

在强化学习阶段,团队不仅惩罚错别字,还惩罚字符的错位、大小异常和布局崩坏。

这使得模型在进行海报修改、文字替换时,能更准确地进行编辑并保持原始文字风格。

示例1:

示例2:

3、创意与多图生成

同时依赖于强大的模型架构能力,FireRed-Image-Edit支持了创造力场景生成和多参考图生成的能力,支持风格迁移或多图融合。

示例1:

示例2:

示例3:

示例4:

示例5:

示例6:

示例7:

通过开源FireRed-Image-Edit,小红书希望为社区提供一个高效、可控、高质量的基座。

后续将会进一步提升基础模型在人像美化、一致性、文字上的编辑能力,并将在未来几个月内持续开源更新版本和文生图基座模型。

欢迎大家下载体验,在GitHub上点亮Star!

GitHub:https://github.com/FireRedTeam/FireRed-Image-Edit技术报告:https://github.com/FireRedTeam/FireRed-Image-Edit/blob/main/assets/FireRed_Image_Edit_1_0_Techinical_Report.pdf体验Demo:https://huggingface.co/spaces/FireRedTeam/FireRed-Image-Edit-1.0

以下是小红书Super Intelligence的团队介绍:

*本文系量子位获授权刊载,观点仅为原作者所有。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

科技前沿进展每日见

关键词: 示例 p图 小红书 edit 图像编辑 知名企

相关阅读

精彩放送

泰凌医药于2月10日上午起短暂停牌 每日报道

热推荐:血液制品龙头股_血液制品板块龙头股票一览(2/6)

农村电商加快发展—— 希望田野更有活力

有点久违,米兰冬奥会的开幕式好评如潮

长江电力公布“一种球阀防误操作锁定装置”专利 每日快播

动态焦点:春节期间福建将开展千场促消费活动

嘉曼服饰跌4.58% 2022上市超募4.7亿东兴证券保荐

易联众睿图影像数据中台:让影像数据“活起来”,医疗服务“智起来”

有奖征集 | 我的春运拼图,藏着回家的理由 今日报

【独家焦点】官宣 比亚迪正式成为曼城足球俱乐部官方合作伙伴

生意社:2月11日华东地区纯碱市场平稳运行 今日观点

观点:北京一男子轻信熟识业务员投资千万保险,买完发现105岁才能取,要求退保遭拒!法院...

三季度黄金公司营收排行榜|黄金排行榜

兴发集团等公布“一种磷石膏制备硫酸钙工艺中提高硫酸钙纯度的新方法”专利

宁德时代公布“电池充放电方法、系统、装置及设备”专利

当前资讯!北京大学国家发展研究院院长黄益平荣膺“2025年度十大宏观经济学家”

观察:2026年2月11日AI多模态概念上市公司市值排名靠前的20家公司

生意社:2月11日山东地区MTBE生产企业报价上调