网站导航

广东视觉模子精细化突围：先“看懂”再“脱手

　　对刚履历“6·18”的电商而言，AI生图取代棚拍已不稀奇：复杂的工做流都被浓缩进对话框里，几分钟就能搞定。不外它也常“弄巧成拙”，呈现货物细节失实、手部关系等硬伤。“目前大部门视觉模子切确度不脚，更多只能用于文娱。”深圳兔展智能科技无限公司创始人、董事长兼CEO董少灵注释，这是由于视觉理解、生成、编纂这三个焦点环节由分歧模子完成，相当于模子只处置了图像却不睬解内容，导致画面从体和布局很容易漂移。针对这一痛点，兔展智能的解法是让模子先“看懂”再“脱手”。其UniWorld系列将上述三个环节同一到一个架构中，让模子先吃透物体布局、材质取空间关系，再精准生成，消息精确。目前，该系列产物已正在电商等场景中构成规模化使用。2015年，它定义了挪动端的H5，推出的零代码编纂器风靡微信伴侣圈；2023年切入视觉大模子赛道，发布多模态大模子“兔灵”；2025年推出国内首个开源视觉理解取生成同一模子UniWorld-V1，现在已迭代至V2。5并正在业内规模化落地，还构成“AI大模子+使用东西”的手艺出海模式。更大范畴来看，兔展智能的转向也取广东人工智能财产成长同频。2015年广东发布《广东省智能制制成长规划（2015—2025年）》，将智能化做为制制业升级的从攻标的目的。到2025年，广东焦点财产规模已冲破3000亿元，总量约占全国1/4；122个大模子通过国度存案，430余个行业模子落地使用。本年4月，兔展智能正在广东省使用对接大会上正式发布了UniWorld-V2。5，这是UniWorld系列第三代产物，即将进入公测阶段。董少灵引见，UniWorld-V2。5正在物体分歧性、局部可控编纂、复杂文字生成、布局化画面生成等方面更适合贸易出产，合用于日常创意、财经演讲等多个场景。用户能发语音或参考图，驱动其生成并编纂。风趣的是，它还能正在输入消息不脚时自动诘问，更像一位设想师帮理。“UniWorld不是正在‘画’一张看起来像的图，而是正在理解并建立一个完整的消息系统。”正在董少灵看来，而是可编纂、可复用、可批量出产、可商用的内容资产。近几年，视觉大模子赛道的支流趋向正正在改变。据领会，OpenAI的GPT-Image系列、DeepMind取何恺明团队合做的Nano Banana/Vision Banana，都正在测验考试打通理解取生成之间的壁垒。“这是视觉大模子从‘玩具’‘东西’的必经之，已成为业界共识。”董少灵暗示。UniWorld是这条上起步较早的模子之一。据引见，2023年启动研发的V1版本早于Nano Banana三个月推出；V2版本的分析机能超越OpenAI的GPT-Image-1，而V2。5正在物理分歧性和复杂场景的生成节制上实现质的飞跃，取GPT-Image-2生成能力持平，且根本功能订价远低于GPT-Image-2。同时，面临OpenAI、谷歌等巨头，兔展智能错位合作，聚焦贸易确定性更强、交付链条更深的ToB和ToG场景，将十多年企业办事经验、实正在客户场景和可落地产物相连系，构成闭环。“兔展智能从一起头就把视觉大模子定位为效率东西，而非泛文娱产物。”董少灵将其手艺逃求归纳综合为“切确美学”。恰是这一务实定位，让UniWorld系列得以快速贸易落地。例如，兔展智能依托UniWorld推出AI商品图东西AnyReal。品牌方只需供给产物环拍素材，即可生成还原度达95%至98%的商品图，间接上架亚马逊等平台，成本曲降80%，目前已办事数十个品牌。据悉，2025年，兔展智能AI贸易化年签约额冲破1亿元，月复合增加率超60%。“深圳完整的制制业、消费电子和跨境电商生态，供给了大量实正在的商品取需求数据，可用于喂养和打磨视觉AI模子。广东的财产链数据则为‘切确美学’供给了天然土壤，帮帮模子正在细分品类上持续优化。”董少灵说。他还提到，大湾区立异人才的高度集聚，也为公司搭建AI人才培育系统供给环节帮力。据悉，兔展智能被评为广东省首个“AI国度级高技强人才培训”，沉点培育AI设想师和AI前沿摆设工程师。从实正在项目切入，让接触实正在订单和交付尺度，达到贸易要求后以“一人公司”或“超等个别”的体例接入出产收集。“正在视觉根本大模子这一决定将来AI的赛道上，来自深圳及广东的团队不只没出缺席，并且正处于领跑的第一阵营。”董少灵暗示，只需面向实正在财产需求，广东完全无机会持续连结这一地位。广东省人工智能使用对接大会上，兔展智能同时发布了SkillsUI交互系统。而是一个正在所有聪慧屏上都能跑的“使命型原生AI交互帮手”。用户一句话交接需求，它一边及时生成操做界面，一边帮用户把工作办完。此次要源于兔展智能对于人机交互演进的判断。正在董少灵看来，人机交互正派历底子性改变：从图形用户界面（GUI）企图界面（IUI）。“过去是人进修机械，需要理解菜单、找到按钮、填写表单；将来则是机械理解人，能听懂指令、看懂、理解企图。响应地，AI也从基于文本生成的‘Chat’时代迈向基于使命施行的‘Action’时代。”能看懂、理解企图的前提，是AI具备视觉取空间智能。视觉大模子的能力远不止于生图，更是AI世界、进而完成指令的根本。因而，兔展智能将计谋从UniWorld延长至SkillsUI。“UniWorld是‘眼睛’，付与AI理解物理世界的能力；SkillsUI是‘双手’，将成果通过动态生成可操做界面等体例，无缝输出至终端。两者协同，形成‘理解—生成—施行’的闭环。”董少灵暗示。具体来看，SkillsUI的运转逻辑是，把保守App、小法式的功能拆解成原子化Skill和尺度化工做流，让用户通过天然言语挪用底层办事，把多步跳改变成“边聊边办”。本年4月，广东发布《广东省加速推进人工智能全域全时全行业高程度使用步履方案》，环绕“人工智能+”科学研究、保守财产、新兴财产、管理能力、平易近生福祉等七大标的目的做出系统摆设，此中提到鞭策“人工智能+”医疗卫生、教育讲授、养老、托育等各行业成长。正正在从生成能力转向处理问题的能力。”董少灵暗示，过去大师关心的是AI能生成什么、能回覆什么；现正在更多客户关怀的是AI可否实正降本增效，可否进入到各范畴具体的工做流。其SkillsUI系列产物已正在多个范畴跑通。正在政务范畴，平台取“i深圳”对接。市平易近打点“矫捷就业参保登记”，不消再面临20多步的固定表单，而是通过几轮对话和AI生成的动态卡片，边聊边办、全程获得。正在医疗范畴，通过对试点病院挂号系统的解构，患者只需描述症状，AI即可挪用“科室保举”“预定取号”“正在线领取”等功能，动态生成一张办事卡片，一坐式完成绩医流程。就正在客岁，兔展智能还随代表团走访卡塔尔取科威特，回国不到一个月，订单便逃了过来：阿联酋委采购识别AI制假的处理方案，卡塔尔成心引入视频生成和从动化剪辑产物。董少灵透露，公司已正在中东落地分公司。“比拟保守SaaS（Software as a Service）出海将尺度化软件翻译后发卖的模式，我们实现了‘AI大模子+AI使用东西’的手艺出海，以AI原生使用参取客户营业流程沉构。”董少灵说。这套逻辑的落地能力，正在本钱市场获得了验证。本年5月，兔展智能颁布发表持续完成E、F轮数亿元人平易近币融资，嘉道本钱、龙岗金控、中国风投、南山和新投等十余家机构参取。公司已办事超4100万家企业用户。此次融资后，企业将正式进行股份制，并打算于本年赴上市。董少灵暗示，当前本钱市场对AI的判断越来越，实正有价值的AI公司必需回覆一个更素质的问题：能不克不及把AI能力为企业实正在可用、可交付、可复购、可规模化的出产力系统。

发布于 : 2026-07-01 14:28

广东视觉模子精细化突围：先“看懂”再“脱手

联系我们

关于我们

产品中心