不只满足探索欲，这家初创公司将AI制图引入跨境电商产业

2022-11-03 13:28 来源:界面新闻作者:李馨婷

跨境电商品牌SHEIN的爆火，把“小单快返”模式带入大众视野：商家先小批量生产多种款式的产品投放市场，根据初步销售数据反馈，对卖得好的产品快速反单，”试”出爆款，减轻库存压力。

该模式衍生出卖家对大量产品图的需求。面对高达几千的SKU（存货单位，可理解为单品种类），给每件衣服都找模特、拍照、修图将面临巨大的工作量和时间成本，这显然违背了“小单快返”的初心。

一家初创公司ZMO.AI从中看到了商机。

ZMO将时下大火的AI生成图像技术应用在电商场景。卖家只需提交产品图，并挑选适合的模特，稍加调整后，就可得到模特穿着自家服饰的展示图，还可以通过这些图片为不同人群调整服装版型、颜色。

由于商家在上架之前不确定哪款卖得好，可能把上千款衣服全部做产品图展示。“大力出奇迹。”ZMO创始人张诗莹笑称。

ZMO成立于2020年，今年5月获得了800万美元的A轮融资，由高瓴资本领投，GGV纪源资本和金沙江创投跟投。公司核心团队成员来自谷歌、苹果、Facebook、商汤、Adobe、腾讯等国内外互联网企业。

创始人张诗莹做硬件出身，毕业后在苹果做第一代AirPods的系统架构，后来又到谷歌做AR眼镜。她给自己的定位是“技术+产品”。

2020年，疫情催热了线上消费需求，张诗莹观察生成算法在Google Shopping上的应用时发现，线上商铺对内容有需求，在无实物的情况下，精致的产品图能够吸引来消费者。这也是ZMO选择从电商场景切入的原因。

ZMO决定从海外起步，其平台名为imgcreator，除去AI生成模特展示图之外，还有文字生成图片的AI Image Generator、消除图片元素的Remover.App、类似文字版Photoshop的AI Image Editor等功能。近期ZMO.AI发布了中文版，微信小程序“YUAN初”。

积攒人气靠C端，赚钱靠B端

近一年，文字生成图像产品百花齐放。Disco Diffusion、Midjourney、Stable Diffusion等如雨后春笋般冒出。谷歌、Meta、微软等科技公司也推出了Imagen、Parti、Make-A-Scene、NUWA-Infinity等同类产品，但大多尚未向公众开放。

这其中受关注较高的当属Stable Diffusion，因其代码和权重已公开发布，可以在大多数消费级GPU上运行。Stable Diffusion由慕尼黑大学和Runway的研究者共同开发，项目初期还获得过Stability.Ai的算力支持。后者刚刚筹得1.01亿美元融资，公司估值达10亿美元。

和Stable Diffusion不同，Midjourney的特别之处则在于运营模式。这是一个AI绘画聊天机器人，搭载了聊天工具Discord。用户在对话框描述自己想象中的画面，机器人就会发回一张图片。人们甚至可以在公共聊天服务器看到其他人的创作过程，其聊天社区有数百万人，用户之间的互动还能够催生创作欲和灵感。

张诗莹提到，不同产品使用的技术有所差别，即便是基于相同的底层框架，搭建模型不同、训练数据不同、用户使用习惯不同，所产出的图片也各有千秋，平台会根据自己的风格和场景去调整算法。以Midjourney为例，它的图片风格偏艺术绘画，更梦幻。而ZMO本身从电商场景切入，主攻真实照片高清大图、3D以及插画风格。

图片来源：YUAN初

但张诗莹强调，电商只是ZMO最初探索的领域，是用于数据积累的初级阶段。看起来，ZMO的野心是做一个更广泛的内容创作平台，包括打造社区。目前很多ZMO的用户是“自来水”（免费、自发宣传某项活动的群体），关注了公司的社交账号，也会主动分享自己的作品。

尽管在C端（用户端）受到不少肯定，但现阶段ZMO的收入还是更依赖B端客户（企业用户）。

不同于个人用户为了满足探索欲而使用AI生成图片，B端用户需要的是实打实的生产力工具，也更愿意付出真金白银。目前企业端用户主要是出海电商厂家，他们对内容有批量、精细化的需求。

ZMO对B端和C端用户都采用会员费的收费方式，只是在B端电商模式下，公司和亚马逊、Shopify等平台会合作，将网站接入商家后台。张诗莹透露，目前ZMO用户中有70%是C端用户，30%是B端用户，80%-90%的客户来自海外。B端用户虽然数量少，但贡献收入更多，因其内容生产规模和C端用户不是一个量级。

不过，C端用户中有一类比较突出的人群，即博主、大V等个人创作者。他们对图片同样有较高需求，愿意为AI绘画、AI修图等功能付费，有介于B端与C端之间的特质，属于潜力客户。

技术突破打开潘多拉魔盒

人工智能生成内容（AIGC，Artificial Intelligence Generated Content）早已不是新鲜话题，但直到今年，相关技术的突破才让AI绘画真正爆火起来。

前几年，这个领域应用比较广泛的技术是生成式对抗网络（GAN，Generative Adversarial Network），还有OpenAI发布的GPT-3（Generative Pre-trained Transformer 3）模型和CLIP模型。

2022年，文字生成图像产品多点爆发，则是因为扩散模型（Diffusion model）在AI生成图像领域发挥了作用，该模型能够大大提高生成图片的质量。Stable Diffusion、DALL-E2等产品都运用了扩散模型。

ZMO算法团队负责人对界面新闻表示，虽然技术风向偏向Diffusion，但目前大多平台还是多个模型共存及合作，比如ZMO所使用的模型是Diffusion+CLIP/GPT3/Other Language Model+GAN(optional)。他认为Diffusion在解决一些技术落地瓶颈后会更有潜力，上限更高。

技术的突破极大降低了AI生成图像的专业门槛，创作者只需要输入文字就可以得到相对专业的画作，几秒钟的时间，可能会诞生意想不到的图像，这给人类的想象力带来无限可能。甚至可以说，AI吸收了各流派艺术家之所长后，诞生了自己的艺术风格。

AI作画对技术、资金要求的降低，让专业图像的创作“民主化”，但同时有关版权、伦理之争也随之而来。

对于AI生成画作的权属问题，至今尚无定论，而艺术届对版权极其敏感。当训练AI使用的图片来自网络时，任何人的作品都有可能被吸收、模仿，只能靠平台自己划分界限。

以ZMO为例，张诗莹告诉界面新闻，为了避免争议，平台训练模型所使用的画家作品皆为已过世画家。以中国《著作权法》来看，作者去世50年后，其作品不再受到著作权法的保护，任何人都可以自由使用其作品，但作者的署名权、修改权和保护作品完整权永远受到保护，即意味着使用其作品需要标注作者。

对于AI只会模仿名家画作、没有自己风格的争议，张诗莹认为，人类学习绘画的过程也同样是模仿，而在使用AI创作的过程中，用户通过调整权重，可以融合各种风格的精髓，也是一种再创作，“我更愿意把AI当成是一个人，从模仿到超越。”

但AI毕竟不是人，无法作出价值判断，对创作者的指令照单全收，因此衍生了伦理问题，比如恶搞政治人物、生成种族歧视的图片，还有早些年的AI换脸风波。

《金融时报》在一篇对AIGC的报道中，引用了英国艺术家马修斯通的一句话，称人工智能生成图像“既有民主的一面，也有压迫的一面”，潘多拉魔盒一旦打开，恶意也有了可乘之机。

ZMO后台就曾经出现过执着的用户，输入无数次敏感词，变换各种表达，希望生成被平台禁止的图片。目前行业内还出现了一些做中间商赚差价的人，靠AI绘画平台制作图片，然后转手卖给图片网站，已经有国外图片网站明确禁止了这种行为。

由于技术超前，尚无法律案例可以应对这些争议，各家平台主要靠自己制定规则来约束用户。在ZMO的数据清洗标准中，涉及政治、色情暴力、人身攻击、种族歧视的内容是被禁止的。

但这可能又会引发新的问题：平台是否妨碍了创作者的自由？用户可不可以只生成内容而不传播？关于AIGC，未来尚有无限可能。

THE END

责任编辑：赵龙

相关阅读

展会预告

新品

多模态大模型产品亮相，海康威视发布文搜存储系列产品
近日，海康威视基于观澜大模型技术体系，将大参数量、大样本量的图文多模态大模型与嵌入式智能硬件深度融合…
飞凌微推出AIoT应用系列高性能端侧视觉AI SoC芯片A1
误报率降低90%以上！海康威视发布视觉大模型周界摄像机
更准！海康威视发布大模型交通卡口抓拍系列产品
飞凌微推出AIoT应用系列高性能端侧视觉AI SoC芯片A1
多模态大模型产品亮相，海康威视发布文搜存储系列产品

访谈

做行业赋能者 HID迎接数字化浪潮新机遇破解新挑战

今年3月份，全球可信身份解决方案提供商HID发布了最新的《安防行业现状报告》（以下简称“报告”），该报告…
数字化浪潮下，安防厂商如何满足行业客户的定制化需求?

回顾近两年，受疫情因素影响，包括安防在内的诸多行业领域都遭受了来自市场 “不确定性”因素的冲击，市场…
博思高邓绍昌：乘产品创新及客户服务之舟，在市场变革中逆风飞扬

11月24日，由慧聪物联网、慧聪安防网、慧聪电子网主办的2022(第十九届)中国物联网产业大会暨品牌盛会，在深…

企业

熵基科技再次通过CMMI5级认证，彰显软件研发高成熟度实力
近日，熵基科技厦门研发中心传来振奋人心的消息——该中心顺利通过了软件开发成熟度能力CMMI V.3.0五级认证…
实数融合提速推进新型工业化加快建设
熵基科技再次通过CMMI5级认证，彰显软件研发高成熟度实力
南京钢铁携手海康威视：场景数字化赋能钢铁“智”造
迪拜安防盛会，共谱安全新篇
海能达发布P5系列公网对讲机