Skip to main content

IEEE CSCWD 论文:基于 LLM的铜镜文创包装设计多智能体

·2535 words·6 mins
赵一鸣
Author
赵一鸣
感谢所有成为自己✨
Table of Contents

该研究旨在 解决铜镜文创包装设计过程中文化语义深度与AIGC自动化生成之间的断层问题 ,基于大语言模型(LLM)提出BronzeMirrorAgent多智能体系统,该系统由三个协作智能体组成,模拟专业文创团队,自动完成从“理解铜镜文化”到“生成包装设计方案”的全流程。该论文被 IEEE 计算机支持协同设计国际会议 CSCWD 2026 接收(第一作者,EI检索,CCF-C英文长文

IEEE英文论文:基于 LLM的铜镜文创包装设计多智能体
#

系统框架图

一、研究背景
#

1.1、研究背景
#

  • 文化遗产驱动的包装设计: 当前研究虽已建立将传统文化元素转化为包装设计的系统方法,但铜镜文化的深厚内涵却未被有效转译,其设计应用多停留在表面纹样复制,缺乏从文化语义到当代设计语言的结构化映射。
  • AIGC 在文化遗产与包装设计中的应用: 生成式AI已作为创意工具应用于文化遗产设计,但现有模式往往仅将传统元素视为风格素材进行表面化重组,缺乏对文化符号系统的深度理解与结构化整合,尚未形成从文化解析到设计生成与评估的闭环流程。

1.2、问题与挑战:
#

  • 文化内涵转译不足:很多设计把铜镜元素当“视觉贴图”,停留在风格迁移,缺少对精神内涵与语境的转译。
  • 文化幻觉:AIGC能提高产出效率,但经常出现符号误用、语义错配,文化忠实度高度依赖专家和设计师个人经验,缺少可验证机制。
  • 多智能体研究空白: 虽然 LLM 多智能体在解决复杂任务上非常出色,但在文化遗产包装领域很少落地;文化知识编码、忠实度约束、以及与视觉生成模型的任务级协同都比较弱。

因此,文本研究希望设计一个既保证文化真实与深度,又兼顾现代审美与市场竞争力的智能化设计流程。


二、 系统设计
#

我们提出 BronzeMirrorAgent :用于铜镜驱动文创包装设计的多智能体框架。系统将专业设计流程的分工映射为三个协同智能体:(1) 文化研究智能体、 (2) 设计策略智能体、 (3) 视觉生成智能体

1、文化研究智能体
#

功能概述: 负责从铜镜信息和专家文本中构建语义可搜索的铜镜知识库

实现方式:

  • 数据清理与预处理: 从《中国铜镜图典》等权威资料中自动提取约5,000组铜镜图文数据,使用 PyMuPDF 从原生 PDF 提取文本与图像,接着,通过OCR与清洗流程去除噪声,并以持续集成的方式构建支持增量扩展的知识库。
  • 文化信息转化: 利用 Gemini 2.5 Pro 的多模态功能将每条数据转化为结构化设计四元组(名称、原图、线稿、文化内涵)。其中,线稿抽象关键视觉特征,文化内涵被编码为向量并建立索引。
  • 文化知识库构建: 每条文化内涵使用句级 Transformer 编码为 768 维向量,并以余弦相似度存入 FAISS 索引,以实现精准的语义检索。

2、设计策略智能体
#

功能概述: 在保持文化真实性的同时,把用户意图转化为“文化扎根 + 趋势感知”的设计输入

实现方式:

  • 用户需求分析: LLM 解析器将自然语言需求拆为结构化参数:Product_Type 约束品类/功能,Style_Keywords 抽取并规范化主题意图,然后将关键词送入两条并行检索路径。
  • 文化知识检索: 将风格关键词向量化,在文化意涵空间语义检索器物,Top-k 后经 LLM 重排与品类视觉过滤,输出少量“原图/线稿+象征与语境”条目以支撑设计并降低文化幻觉。
  • 现代趋势获取: Modern Trend Scout 基于 Product_Type、Style_Keywords 与时间标记生成查询,经 MCP 聚合检索 Pinterest/Google/Behance 等平台,收集当下审美参考图并自动抽取配色、字体、材质工艺与版式等属性,用时间过滤剔除过时风格。

3、视觉生成智能体
#

功能概述: 执行思维链提示构建、基于扩散的图像生成以及视觉语言模型作为评判标准(VLM-as-judge)的评估,从而综合生成包装方案

实现方式:

  • 包装生成方案: 用 LLM 推理编译结构化多模态提示词:重建产品语境;将文化母题编码为硬约束(必用线稿、保留对称与图像志特征);将趋势属性作为软约束(配色/字体/材质工艺/表面效果);并加入构图与生产约束,最终以自然语言 + 图像条件输出。
  • 生成和审查: 经 Nano Banana API 生成高分辨率候选,并进入“生成–评估–修订”循环:由 Gemini 2.5 Pro 作为 VLM-as-judge 按三轴打分并给出简短理由——主题/文化一致性、审美与市场匹配、铜镜关键特征的可识别性,以筛出少量风格多样且语义连贯的方案。
  • 包装设计图产出: 低分即诊断改写提示词并有限迭代,最终输出排序 3–5 张高清方案,每张附提示词、设计说明与溯源元数据,实现可控可解释且兼顾文化真实性与商业落地。

四、实验与评估
#

我们以量化评分+质性访谈的混合方法评估BMA,围绕文化忠实度、设计质量、商业潜力 三个维度,在真实任务中对比 DALL·E 3 与 Midjourney,并通过消融分析组件贡献与相对专家流程的效率收益。

1、实验设置
#

  • 实验设置: 构建 12 个包装任务(四品类:月饼/茶/酒/化妆品),每题一句文本并指定产品类型与文化/情绪意图;BMA、DALL·E 3、Midjourney 对每题用同一输入生成以控变量。
  • 三组评审: 20 文化专家、30 资深设计师(≥10 年)、80 消费者;简训后在线匿名、随机顺序评分三套方案,单次约 30 分钟。

2. 量化评估
#

  • 量化方法: 三方 5 点 Likert——文化专家评 CA/CD ,设计专家评 AA/CR,消费者评 PI 并做强制偏好;各量表均值化后做两两比较。
  • 结果表明: BMA 全指标领先 DALL·E 3/Midjourney(CA 4.60>3.15/3.20;CD 4.25>2.70/3.80;AA 4.40>3.03/3.87;CR 4.47>3.13/3.93;PI 4.66>3.23/3.38),偏好选择中 BMA 68%(对比 13%/19%),显示其文化忠实度与市场潜力显著更强。

3. 消融与质性分析
#

消融与访谈(团圆月饼礼盒):45/50 专家偏好 BMA,认为其铜镜结构与语义更完整、团圆表达更可信;基线常被批评为伪纹样与配色/语义不匹配。去掉文化知识→“传统元素拼贴”、铜镜指向不清;去掉趋势参考→准确但偏旧、不够吸睛;完整系统最佳。访谈还显示效率提升:从周级跨专家沟通降到约 10 分钟监督即可得到可用草案。


五、结论
#

本文提出 BronzeMirrorAgent:以 LLM 为核心的多智能体框架,将铜镜文化作为“文化转创”任务,通过文化分析、设计策略与视觉综合协作耦合遗产知识与生成式图像模型,在文化忠实度、设计质量与市场潜力上优于强基线并降低设计耗时;该方法亦可迁移为激活其他文化遗产与器物类型的通用智能设计模板。