面向金融行业的私有化数字资产管理与智能创作支持系统。围绕 智能分类存储、AI 自动优化挑选、多场景复用调用三大能力, 给出总体架构、关键模块技术实现、国产开源模型选型、部署拓扑、性能容量与运维对接的完整设计。
明确系统目标、能力边界与不可妥协的工程原则。
构建一套面向金融行业、可在内网完成全部能力闭环的 AI 数字资产中枢,提供以下核心能力:
| 能力项 | 说明 |
|---|---|
| 图片画质增强 / 抠图 / 调色 | AI 图像优化引擎核心能力,提升存量素材可用性。 |
| 视频抽帧 + 打标 + ASR 转写 | 对视频做语义识别,支持秒级片段定位检索。 |
| 三级分类自动归档 | 类型 → 场景 → 内容三级标签自动打齐。 |
| 多模态语义检索 | 文字 / 图片 / 视频帧统一向量空间,跨模态召回。 |
| 多比例智能裁剪输出 | 图片按 9:16 / 16:9 / 1:1 / 3:4 等多比例并行导出。 |
| 素材价值评估与生命周期管理 | AI 持续评估资产价值,主动推荐复用与归档建议。 |
| 原则 | 说明 |
|---|---|
| 私有化优先 | 模型权重、向量索引、对象存储、审计日志全部本地化;任何环节不依赖公网 API。 |
| 国产化优先 | AI 模型首选国内团队开源方案;无对应方案再选国际开源。 |
| 原文件可信留存 | 视频原文件完整保留以维持拍摄证据性;图片优化版本与原始版本并行保存,可回滚。 |
| 模块解耦 | 存储 / 计算 / 模型独立扩容,模型可热替换、可灰度。 |
| 多模态统一 | 图、视频抽帧、文本编码到同一向量空间,跨模态检索无缝切换。 |
| 安全合规 | 对齐等保 2.0 三级、JR/T 0071、个人信息保护法。 |
| 可演进 | 预留模型升级、向量重算、索引迁移、模型灰度的工程通道。 |
五层职责分明,组件独立扩缩;图片与视频走差异化处理路径。
资产记录、向量索引、审计日志的一致性是系统正确性的基础。
三级分类体系如何在工程上落地,并支持长期演进。
| 层级 | 维度 | 枚举 |
|---|---|---|
| L1 | 类型 | 视频素材 · 图片素材 |
| L2 | 场景 | 银行大楼 · 总部 · 分行 · 营业网点 · 户外商圈 · 公益场景 |
| L3 | 内容 | 氛围人物(按岗位 / 角色)· 场景实景 · 业务场景 · 品牌 IP · 公益宣传 |
系统对每条素材打出 0–100 的适配度评分,作为后续检索排序与清理决策的依据。考虑到项目初期没有"采用 / 驳回"历史数据,采用双阶段策略:
| 阶段 | 评分模型 | 说明 |
|---|---|---|
| M1–M2 · 冷启动 | 通用图像质量评估(NIMA / MUSIQ)+ 业务规则加权 | 无须标注数据,开箱即用;规则覆盖清晰度、构图、品牌元素出现等。 |
| M3+ · 学习期 | 累积 ≥ 1000 条采纳 / 驳回标注后,切换自训练分类器(XGBoost / LightGBM) | 结合冷启动模型的输出作为特征之一,平滑过渡。 |
| M6+ · 稳态 | 每月或每季度增量重训,进入第 09 章模型治理流程 | 新模型上线前必须经离线评估 + 灰度验证。 |
分级策略:≥ 80 高适配(优先复用)· 50–80 中适配(按需)· < 50 低适配(重点标注,谨慎使用)。
面向图片素材的全流程 AI 优化能力。
| 任务 | 推荐开源模型 / 算法 | 说明 |
|---|---|---|
| 图像超分辨率 | Real-ESRGAN 腾讯 ARC · 国产 推荐 | 对老素材、模糊图、低清扫描件做 2× / 4× 放大。 |
| 人脸细节增强 | GFPGAN 腾讯 ARC · 国产 推荐 | 修复人物面部细节,对柜员合影、客户场景类素材效果显著。 |
| 自动调色 / 对比度增强 | CLAHE + 自适应 LUT 推荐 | 无须模型,CPU 即可实时;色调统一、对比度提升。 |
| 背景抠除 | BiRefNet 国产开源 推荐 | 用于人物 / 物体抠图,海报与条漫合成所需。 |
| 智能构图裁剪 | BASNet (Saliency) + 人脸检测 推荐 | 横竖比例自动适配的核心算法,详见第 06 章。 |
不同任务的显存与算力需求差异大,统一抢占会造成 OOM 与队头阻塞。按显存分级路由:
| 节点级别 | 典型显卡 | 承担任务 |
|---|---|---|
| L1 · 小卡池 | NVIDIA T4 / RTX 4060(8 GB) | CLIP 向量化、检测、OCR、Rerank(小批) |
| L2 · 中卡池 | NVIDIA A10 / L4(24 GB) | 超分、抠图、人脸增强、ASR 长音频 |
| L3 · 大卡池 | NVIDIA A100 / H800(40-80 GB) | 模型重训、批量重算、未来大模型推理 |
任务在入队时声明显存需求标签,调度器据此路由到对应池子;池子之间相互隔离、独立扩缩。
视频素材在系统中通过抽帧与 ASR 实现语义可检索,原文件保持完整以保留拍摄证据性,按需精准调用。
| 能力 | 说明 |
|---|---|
| 视频抽帧 + 帧级打标 | 每帧带时间码,落库用于检索;可定位到秒级片段。 |
| 音轨 ASR 转写 | 转写文本作为内容标签来源,扩大可检索语义维度。 |
| 视频原文件精准调用 | 检索命中后,按原文件 + 命中片段时间码列表交付。 |
系统的检索核心。统一向量空间 + 三段式流水线 + 视频片段级定位 + 金融场景适配。
| 模型 | 维度 | 评价 |
|---|---|---|
| Chinese-CLIP ViT-L/14 阿里达摩院 OFA · 国产 推荐 | 768 | 中文语义对齐效果最好,对国内业务术语支持优秀;开源完整。 |
| BGE-M3 智源 · 国产 | 1024 | 多语言多粒度文本嵌入;与 Chinese-CLIP 组合可强化文本侧能力。 |
| BGE-Reranker-large 智源 · 国产 | — | 用于第三段精排(cross-encoder)。 |
通用 Chinese-CLIP 在"晨会、柜面服务、对公开户、理财签约"等金融业务术语上对齐效果有限。系统提供两层适配方案:
| 方案 | 规模 / 场景 | 建议 |
|---|---|---|
| pgvector 首期 | 千万级以下;SQL + 向量混合查询 | 与业务库同栈,运维简单,事务一致;首期推荐。 |
| Milvus | 亿级以上;纯向量场景 | 规模超过 pgvector 阈值时平滑迁移,独立集群部署。 |
| Qdrant | 千万 ~ 亿级;过滤 + 向量 | 过滤性能优于 Milvus,对 metadata 检索友好,可作备选。 |
视频不会被作为整体召回,而是按片段(time range)召回,业务调用时直接定位到秒级时间码:
| 查询输入 ↓ / 检索目标 → | 图片 | 视频片段 | 短文本档 | 长文档 |
|---|---|---|---|---|
| 文本查询 | ✓ | ✓ | ✓ | ✓ |
| 图片查询 | ✓ | ✓ | 部分 | 部分 |
| 视频帧查询 | ✓ | ✓ | 部分 | 部分 |
长文档检索由纯文本嵌入索引(BGE-M3)承载,与多模态向量库并行,统一在召回 → 重排链路中合并结果。
图片支持智能裁剪与多比例输出;视频按原文件 + 片段定位精准下载。
基于显著性图(Saliency)与人脸 / 主体检测,结合目标比例自动构图,避免主体被切。
| 复用类型 | 系统输出形式 | 说明 |
|---|---|---|
| 图片复用 | 原图 / 优化版 + 多比例适配版 | 原图与优化版本并行保存,调用方可按场景自由选择,并支持回滚。 |
| 视频复用 | 原始视频文件 + 命中片段时间码列表 | 保留原始拍摄证据,调用方按时间码定位到秒级片段。 |
RBAC + ABAC 双引擎,覆盖角色、属性、密级、时效四维度。
| 角色 / 权限 | 查看 | 上传 | 优化 | 调用 | 审核 | 下架 | 导出审计 |
|---|---|---|---|---|---|---|---|
| 系统管理员 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| 资产管理员 | ✓ | ✓ | 委派 | ✓ | ✓ | ✓ | — |
| 审核员 | ✓ | — | — | — | ✓ | 建议 | — |
| 优化运营 | ✓ | ✓ | ✓ | 协助 | — | — | — |
| 普通调用员 | 受限 | — | — | 受限 | — | — | — |
金融行业核心约束。本章给出技术层的具体落实点。
| 维度 | 技术措施 |
|---|---|
| 部署形态 | 全栈私有化,K8s 部署在内网;模型权重、向量索引、原始素材均不出银行边界。 |
| 网络隔离 | VPC 三段式划分(业务区 / 数据区 / 管理区),跨段流量经防火墙白名单。 |
| 传输加密 | TLS 1.3 强制;管理面接口启用双向 mTLS。 |
| 存储加密 | 对象存储 AES-256 静态加密;密钥经 KMS 集中托管,定期轮转;可对接国密 SM 系列硬件加密机。 |
| 身份认证 | 对接行内 LDAP / AD;高权限操作启用 MFA;可选硬件 Key。 |
| 权限控制 | RBAC + ABAC 双引擎,策略与代码分离,可热更新。 |
| 原始素材保护 | 视频原始文件全程不可修改;图片原版本始终保留;删除采用软删除 + T+N 物理清理。 |
| 备份与灾备 | 本地全量 + 异地增量;每季度做恢复演练;RPO / RTO < 1h。 |
| 合规对齐 | 等保 2.0 三级、JR/T 0071《金融行业网络安全等级保护实施指引》、个人信息保护法。 |
普通数据库默认不防篡改,本系统采用三档可选方案,按行内安全等级要求选用:
| 等级 | 方案 | 说明 |
|---|---|---|
| 基础 | 独立审计库 · 仅授权 INSERT | 物理隔离,账号权限收敛到只能写入;运维角色不可改写。 |
| 增强 | 追加写 + Hash Chain | 每条审计记录 hash 上一条记录,链式校验;导出离线日志归档。 |
| 最高 | WORM 存储 / 区块链存证 | 对接行内 WORM 存储设备,或将关键 hash 上链至行内联盟链。 |
系统强调"数据不出内网",但模型权重首次需要从 HuggingFace / GitHub 下载。为此建立受控导入通道:
K8s 容器镜像、依赖包、操作系统更新走相同隔离通道,由内网镜像源统一分发。
素材状态机 + AI 自动清理 + 模型版本管理与灰度发布。
所有 AI 模型(嵌入、打标、适配度、Rerank 等)作为系统的"可替换引擎",必须有规范的版本管理与灰度上线机制:
| 阶段 | 动作 | 负责 |
|---|---|---|
| 注册 | 新模型权重入模型注册中心(MLflow / 自建),打版本号与 hash | 模型工程 |
| 离线评估 | 跑 Benchmark 数据集,对比上一版本的关键指标(Recall / nDCG / 准确率) | 模型工程 |
| 影子流量 | 新模型在线但不影响真实结果,仅记录差异 | 系统自动 |
| 灰度切换 | 真实流量按 5% → 50% → 100% 分批切换,每档观察 24h | 资产管理员审批 |
| 一键回滚 | 任意阶段发现指标恶化,1 分钟内回滚到稳定版本 | 系统自动 / 手动 |
| 下线 | 旧版本权重保留 90 天后归档,便于审计与回放 | 模型工程 |
全栈开源、可私有化;AI 模型优先选用国产团队开源方案。
| 模块 | 推荐选型(来源) | 说明 / 备选 |
|---|---|---|
| — AI 模型层 — | ||
| 多模态嵌入 | Chinese-CLIP ViT-L/14 阿里达摩院 OFA · 国产 | 检索核心模型;中文语义对齐效果最佳。 |
| 文本嵌入 / 重排 | BGE-M3 / BGE-Reranker-large 智源研究院 · 国产 | 长文档独立索引 + 检索精排。 |
| OCR | PaddleOCR-v4 百度 PaddlePaddle · 国产 | 中英文识别工业级方案。 |
| ASR 语音识别 | FunASR 阿里达摩院 · 国产 | 替代 Whisper;中文识别更准;备选 SenseVoice(商汤)。 |
| 目标检测 | PP-YOLOE+ / RT-DETR 百度 PaddleDetection · 国产 | 替代 YOLOv8;中文文档与样例完善。 |
| 开放词汇识别 | RAM (Recognize Anything) OPPO + IDEA · 国产 | 识别未预定义类别。 |
| 图像超分 | Real-ESRGAN 腾讯 ARC · 国产 | 备选 SwinIR。 |
| 人脸增强 | GFPGAN 腾讯 ARC · 国产 | 备选 CodeFormer。 |
| 抠图 | BiRefNet 中国学者主导 · 国产开源 | 备选 rembg / U²Net。 |
| 显著性检测 | BASNet 国际开源 | 用于智能裁剪的主体识别。 |
| 图像质量评估 | NIMA / MUSIQ 国际开源 | 用于适配度冷启动评分。 |
| — 应用与中间件 — | ||
| 应用框架 | Python + FastAPI | 如行内为 Java 栈,可换 Spring Boot。 |
| 任务队列 | Celery + Redis 哨兵 | RabbitMQ(更强投递保证)。 |
| 视频元数据 / 抽帧 | FFmpeg(只读模式) | 用于读取元数据、抽取关键帧供检索与定位。 |
| 模型注册中心 | MLflow | 用于第 09 章模型版本管理与灰度。 |
| — 数据与存储 — | ||
| 关系数据库 | PostgreSQL 16 | 可对接行内国产数据库(达梦 / 人大金仓)。 |
| 向量数据库 | pgvector(与关系库同栈)首期 | Milvus / Qdrant(规模升级时切换)。 |
| 对象存储 | MinIO(S3 兼容) | Ceph(更适合 PB 级)。 |
| 缓存 | Redis(哨兵 / 集群) | — |
| — 平台与安全 — | ||
| 容器编排 | Kubernetes | 可对接行内国产容器云(KubeSphere)。 |
| API 网关 | APISIX Apache · 中国主导 | 替代 Kong。 |
| 身份 / SSO | Keycloak | 对接行内 AD / LDAP / 国产堡垒机。 |
| 监控 / 告警 | Prometheus + Grafana + Alertmanager | — |
| 日志 / 审计 | ELK + 独立审计库(仅追加) | OpenSearch(如规避商业许可)。 |
| 密钥管理 | HashiCorp Vault | 对接行内 KMS / 国密 SM 硬件加密机。 |
私有化部署的网络分区、节点角色与起步规模。
| 节点角色 | 规格(参考) | 数量建议 |
|---|---|---|
| API / 应用节点 | 16 vCPU · 32 GB · SSD 200 GB | ≥ 3(高可用) |
| 关系库 + 向量库 | 16 vCPU · 64 GB · NVMe 1 TB | 1 主 1 备 |
| 对象存储 | 8 vCPU · 32 GB · SATA 16 TB × N | ≥ 4(EC 编码冗余) |
| GPU L1(小卡池) | 16 vCPU · 32 GB · T4 / RTX 4060 × 1~2 | 2~4 台 |
| GPU L2(中卡池) | 32 vCPU · 64 GB · A10 / L4 × 1~2 | 2 台起步 |
| GPU L3(大卡池) | 32 vCPU · 128 GB · A100 / H800 × 1 | 1 台(按训练频次) |
| K8s Control Plane | 8 vCPU · 16 GB · SSD 200 GB | 3(奇数仲裁) |
| 监控 / 日志 / 审计 | 16 vCPU · 32 GB · SSD 1 TB | 2 |
承诺 SLA、可扩展性边界与容量估算依据。
| 类目 | 单条均值 | 100 万规模 | 1000 万规模 |
|---|---|---|---|
| 原始图片 | 2 MB | 2 TB | 20 TB |
| 派生图片(超分 + 多比例) | 5 MB | 5 TB | 50 TB |
| 原始视频 | 500 MB | 500 TB | 5 PB |
| 视频抽帧(按 1 FPS) | — | ≈ 1 亿帧 | ≈ 10 亿帧 |
| 向量索引(768 维 · float32) | 3 KB / 向量 | ≈ 300 GB | ≈ 3 TB |
| 关系库 + 元数据 | 1 KB / 条 | 1 GB | 10 GB |
| 审计日志(年留存) | 0.5 KB / 操作 | ≈ 50 GB | ≈ 500 GB |
上表为典型场景估算,实际需根据银行素材结构、视频时长分布、抽帧策略调整;视频是绝对存储大头,建议分层存储(热 SSD / 温 HDD / 冷归档)。
从用户视角出发,看 AI 在每一步具体替业务做了什么。三个典型场景覆盖检索调用、入库、清理。
在用户视角下,AI 不是一个抽象概念,而是分布在每一步操作里的"自动同事",承担四类工作:
| 层级 | 体现 | 对业务的意义 |
|---|---|---|
| 效率层 | 找素材:2 小时 → 3 分钟 整理素材:48 工时 → 0.5 工时 | 把人从"搬砖"中解放出来,集中精力做决策与创意。 |
| 质量层 | 智能排序 / 智能裁剪 / 适配度评分 | "挑出来的"永远是相对最适配的素材,输出质量稳定。 |
| 沉淀层 | 价值评分 / 增量学习 / 模型迭代 | 系统越用越懂业务,组织内的隐性经验被持续固化为模型能力。 |
对外 API 能力、监控指标体系与应急预案要点。
| 能力域 | 关键 API | 说明 |
|---|---|---|
| 素材接入 | 上传 · 批量导入 · 同步 | 支持单条上传、批量任务、断点续传、目录同步。 |
| 检索 | 关键词 · 向量 · 多模态 | 统一入口;支持过滤参数(密级、机构、时效)。 |
| 调用 | 图片下载 · 多比例导出 · 视频原文件下载(含片段定位) | 所有调用必须带身份与用途;签发短时签名链接。 |
| 优化 | 提交优化任务 · 查询任务状态 · 结果回调 | 面向图片;异步任务,原图与优化版本并行保存。 |
| 资产管理 | 修改标签 · 状态流转 · 软删除 | 所有变更经权限校验并写审计。 |
| 审计 | 查询操作记录 · 导出审计报表 | 仅授权角色可访问。 |
| 系统管理 | 用户 · 权限 · 模型版本 · 灰度策略 | 管理员后台能力。 |
| 类别 | 关键指标 |
|---|---|
| 业务监控 | 检索 QPS / 延迟分布 / 调用成功率 / 优化任务积压数 / 上传失败率 |
| 模型监控 | 模型推理延迟 / GPU 利用率 / 显存占用 / 适配度评分分布漂移 / Recall@10 趋势 |
| 安全监控 | 异常登录 / 越权访问尝试 / 高敏素材调用频次 / 审计日志完整性校验 |
| 故障场景 | 处置策略 |
|---|---|
| GPU 节点宕机 | 任务自动迁移到同级其他节点;超阈值排队时降级为 CPU 备用通路(仅检索)。 |
| 模型推理异常 | 触发 9.3 灰度回滚;API 返回标准错误码,前端降级为关键词检索。 |
| 向量库故障 | 自动切换为关键词 + 标签检索降级模式,并告警。 |
| 对象存储分区损坏 | EC 编码自动修复;关键素材异地备份秒级切换。 |
| 误删素材 | 软删除窗口期内(默认 30 天)一键恢复;超期需走数据库备份恢复流程。 |
| 权限策略错配 | 策略热回滚到上一稳定版本;事件落审计并告警 SOC。 |