AI 数字资产中枢 · 技术实现方案

CHAPTER 01

概述与设计原则

明确系统目标、能力边界与不可妥协的工程原则。

1.1 系统目标

构建一套面向金融行业、可在内网完成全部能力闭环的 AI 数字资产中枢，提供以下核心能力：

资产收纳：以三级分类体系（类型 → 场景 → 内容）统一收纳存量与增量素材；
AI 图像优化：在入库环节对图片素材进行画质增强、抠图、自动调色等处理；
智能挑选：通过多模态向量检索，按业务语义快速召回适配素材；
多端复用：一份资产支持平面与视频两类创作场景调用，视频以原始文件形态被调用；
安全合规：满足金融行业的私有化部署、权限分级、操作审计、数据加密要求。

1.2 核心能力清单

能力项	说明
图片画质增强 / 抠图 / 调色	AI 图像优化引擎核心能力，提升存量素材可用性。
视频抽帧 + 打标 + ASR 转写	对视频做语义识别，支持秒级片段定位检索。
三级分类自动归档	类型 → 场景 → 内容三级标签自动打齐。
多模态语义检索	文字 / 图片 / 视频帧统一向量空间，跨模态召回。
多比例智能裁剪输出	图片按 9:16 / 16:9 / 1:1 / 3:4 等多比例并行导出。
素材价值评估与生命周期管理	AI 持续评估资产价值，主动推荐复用与归档建议。

1.3 设计原则

原则	说明
私有化优先	模型权重、向量索引、对象存储、审计日志全部本地化；任何环节不依赖公网 API。
国产化优先	AI 模型首选国内团队开源方案；无对应方案再选国际开源。
原文件可信留存	视频原文件完整保留以维持拍摄证据性；图片优化版本与原始版本并行保存，可回滚。
模块解耦	存储 / 计算 / 模型独立扩容，模型可热替换、可灰度。
多模态统一	图、视频抽帧、文本编码到同一向量空间，跨模态检索无缝切换。
安全合规	对齐等保 2.0 三级、JR/T 0071、个人信息保护法。
可演进	预留模型升级、向量重算、索引迁移、模型灰度的工程通道。

CHAPTER 02

系统总体架构

五层职责分明，组件独立扩缩；图片与视频走差异化处理路径。

2.1 分层架构

FIG. 2-1 · System Layered Architecture

接入层

Web 控制台REST / gRPC API 桌面同步客户端批量迁移工具 SSO / LDAP

应用层

资产管理检索服务优化任务调度权限 RBAC+ABAC 审计日志工作流引擎模型注册与灰度

AI 引擎层

图像优化自动打标向量化（图 / 文）视频抽帧 + 打标 + ASR 智能裁剪（图）适配度评分重排 Rerank

存储层

对象存储 (MinIO)关系库 (PostgreSQL) 向量库 (pgvector / Milvus)缓存 (Redis) 审计库 (独立 · 仅追加)

基础设施

私有化 K8s 集群GPU 节点池（分级） VPC 内网隔离KMS 密钥管理本地 + 异地备份

2.2 图片处理路径（含 AI 优化）

01

入库

对象存储 + 关系记录

→

02

AI 优化

超分 / 修复 / 抠图

→

03

打标 + 向量化

CV / OCR / CLIP

→

04

检索可用

原图 + 优化版并存

→

05

调用输出

智能裁剪 + 多比例

2.3 视频处理路径（语义识别 + 原文件留存）

01

入库

对象存储 + 元数据

→

02

抽帧

关键帧 / 定频

→

03

帧打标 + 向量化

每帧带时间码

→

04

ASR 转写

音轨 → 文本标签

→

05

检索可用

片段级定位

→

06

原文件下载

附片段时间码

2.4 数据一致性策略

资产记录、向量索引、审计日志的一致性是系统正确性的基础。

首期方案：pgvector 与业务表同库，所有写入走数据库事务，资产删除 / 状态变更与向量更新原子提交，无幽灵索引；
升级方案：当切换至独立 Milvus / Qdrant 集群时，引入 CDC（Change Data Capture）+ 补偿任务双保险，并以"关系库为权威源"，向量库定期对账；
软删除优先：所有删除操作先转 `archived` 状态，T+N 后再物理清理，并同步移除向量索引。

CHAPTER 03

智能分类存储

三级分类体系如何在工程上落地，并支持长期演进。

3.1 三级分类体系

层级	维度	枚举
L1	类型	视频素材 · 图片素材
L2	场景	银行大楼 · 总部 · 分行 · 营业网点 · 户外商圈 · 公益场景
L3	内容	氛围人物（按岗位 / 角色）· 场景实景 · 业务场景 · 品牌 IP · 公益宣传

3.2 工程落地策略

建立 taxonomy_node 表存放无限层级分类树（推荐 closure-table，便于子树查询）；
资产主表挂 taxonomy_path[] 数组字段，记录命中节点；
非分类的辅助标签（季节、节日、活动等）走 tags[]，使用 PostgreSQL GIN 索引加速；
结构化扩展属性进入 attrs JSONB，模型迭代不动主表。

3.3 自动打标流程

FIG. 3-1 · Auto-Tagging Pipeline（图片 / 视频通用）

INGEST

素材入库，落对象存储；登记主表，状态 = pending_tag

MinIO + PostgreSQL

FRAME

视频抽帧（关键帧 + 定频补充），每帧记录时间码

FFmpeg（关键帧 + 定频抽帧，供检索使用）

DETECT

识别场景、物体、人脸属性

PP-YOLOE+ / RT-DETR + RAM

OCR

提取画面文字（柜台号、活动标题、品牌字）

PaddleOCR-v4

ASR

视频音轨转写文本，作为内容标签来源

FunASR（达摩院）

MAP

将识别结果映射到 L1 / L2 / L3 节点 + 辅助标签

规则引擎 + LLM 二次校准

SCORE

输出 AI 适配度（0-100），区分高 / 中 / 低

轻量分类器（详见 3.4）

REVIEW

高敏感分类结果进入人工复核队列

工作流引擎 + 通知

3.4 AI 适配度评分（含冷启动策略）

系统对每条素材打出 0–100 的适配度评分，作为后续检索排序与清理决策的依据。考虑到项目初期没有"采用 / 驳回"历史数据，采用双阶段策略：

阶段	评分模型	说明
M1–M2 · 冷启动	通用图像质量评估（NIMA / MUSIQ）+ 业务规则加权	无须标注数据，开箱即用；规则覆盖清晰度、构图、品牌元素出现等。
M3+ · 学习期	累积 ≥ 1000 条采纳 / 驳回标注后，切换自训练分类器（XGBoost / LightGBM）	结合冷启动模型的输出作为特征之一，平滑过渡。
M6+ · 稳态	每月或每季度增量重训，进入第 09 章模型治理流程	新模型上线前必须经离线评估 + 灰度验证。

分级策略：≥ 80 高适配（优先复用）· 50–80 中适配（按需）· < 50 低适配（重点标注，谨慎使用）。

CHAPTER 04

AI 图像优化引擎

面向图片素材的全流程 AI 优化能力。

SCOPE 本章涵盖图片素材的 AI 优化能力。视频素材通过抽帧打标、ASR 转写实现语义检索（详见第 03、05 章），并以原文件形态被精准调用（详见第 06 章）。

4.1 图像优化任务清单与国产开源模型推荐

任务	推荐开源模型 / 算法	说明
图像超分辨率	Real-ESRGAN 腾讯 ARC · 国产推荐	对老素材、模糊图、低清扫描件做 2× / 4× 放大。
人脸细节增强	GFPGAN 腾讯 ARC · 国产推荐	修复人物面部细节，对柜员合影、客户场景类素材效果显著。
自动调色 / 对比度增强	CLAHE + 自适应 LUT 推荐	无须模型，CPU 即可实时；色调统一、对比度提升。
背景抠除	BiRefNet 国产开源推荐	用于人物 / 物体抠图，海报与条漫合成所需。
智能构图裁剪	BASNet (Saliency) + 人脸检测推荐	横竖比例自动适配的核心算法，详见第 06 章。

EVIDENCE-SAFE 所有优化操作走异步任务队列，原始图片始终保留，仅在派生表中追加优化后版本，原图与优化版本均可调用、可回滚、可对比。

4.2 图像优化任务调度

01

提交任务

API / 自动触发

→

02

入队

Celery + Redis 哨兵

→

03

GPU 调度

按显存分级路由

→

04

模型推理

超分 / 抠图 / 修复

→

05

派生入库

原图保留

→

06

通知 / 审核

回调 + 待审

4.3 GPU 节点池分级调度

不同任务的显存与算力需求差异大，统一抢占会造成 OOM 与队头阻塞。按显存分级路由：

节点级别	典型显卡	承担任务
L1 · 小卡池	NVIDIA T4 / RTX 4060（8 GB）	CLIP 向量化、检测、OCR、Rerank（小批）
L2 · 中卡池	NVIDIA A10 / L4（24 GB）	超分、抠图、人脸增强、ASR 长音频
L3 · 大卡池	NVIDIA A100 / H800（40-80 GB）	模型重训、批量重算、未来大模型推理

任务在入队时声明显存需求标签，调度器据此路由到对应池子；池子之间相互隔离、独立扩缩。

4.4 视频素材的智能识别能力

视频素材在系统中通过抽帧与 ASR 实现语义可检索，原文件保持完整以保留拍摄证据性，按需精准调用。

能力	说明
视频抽帧 + 帧级打标	每帧带时间码，落库用于检索；可定位到秒级片段。
音轨 ASR 转写	转写文本作为内容标签来源，扩大可检索语义维度。
视频原文件精准调用	检索命中后，按原文件 + 命中片段时间码列表交付。

CHAPTER 05

多模态智能检索

系统的检索核心。统一向量空间 + 三段式流水线 + 视频片段级定位 + 金融场景适配。

5.1 多模态嵌入模型选型

模型	维度	评价
Chinese-CLIP ViT-L/14 阿里达摩院 OFA · 国产推荐	768	中文语义对齐效果最好，对国内业务术语支持优秀；开源完整。
BGE-M3 智源 · 国产	1024	多语言多粒度文本嵌入；与 Chinese-CLIP 组合可强化文本侧能力。
BGE-Reranker-large 智源 · 国产	—	用于第三段精排（cross-encoder）。

5.2 金融场景领域适配

通用 Chinese-CLIP 在"晨会、柜面服务、对公开户、理财签约"等金融业务术语上对齐效果有限。系统提供两层适配方案：

第一层 · Prompt 模板库（M1 即可启用）：内置金融业务词典，检索时自动扩展同义词与场景化表述，例如 "理财签约" → "客户经理 · 签约 · 文件 · 柜面"；
第二层 · 轻量 fine-tune（M3+ 启用）：基于银行真实数据采样 500–1000 对图文样本，对 Chinese-CLIP 做 LoRA 轻量微调，单卡数小时完成；
评估机制：建立金融场景 Benchmark（≥ 200 条标注 query），每次模型升级前后对比 Recall@10 与 nDCG，达标方可上线。

5.3 向量库选型

方案	规模 / 场景	建议
pgvector 首期	千万级以下；SQL + 向量混合查询	与业务库同栈，运维简单，事务一致；首期推荐。
Milvus	亿级以上；纯向量场景	规模超过 pgvector 阈值时平滑迁移，独立集群部署。
Qdrant	千万 ~ 亿级；过滤 + 向量	过滤性能优于 Milvus，对 metadata 检索友好，可作备选。

5.4 三段式检索流水线

FIG. 5-1 · Three-Stage Retrieval Pipeline

FILTER

基于结构化标签强过滤（场景、密级、有效期、机构归属）

PostgreSQL · 索引扫描

RECALL

向量召回 Top 200，多模态查询（文 → 图 / 图 → 图 / 文 → 视频帧）

pgvector / Milvus · 余弦相似度

RERANK

交叉编码器精排 Top 20，融合适配度 / 时效性 / 复用次数加权

BGE-Reranker-large · GPU 推理

5.5 视频片段级定位

视频不会被作为整体召回，而是按片段（time range）召回，业务调用时直接定位到秒级时间码：

视频抽帧时记录 frame_timestamp（毫秒精度），向量入库时关联 (asset_id, frame_id, timestamp)；
检索结果按"同一视频内的连续命中帧"自动合并为片段，输出形如 "video_id : 00:12:03 → 00:12:30"；
视频原文件下载时附带命中片段列表，调用方可直接定位到对应时间码取用。

5.6 跨模态查询能力矩阵

查询输入 ↓ / 检索目标 →	图片	视频片段	短文本档	长文档
文本查询	✓	✓	✓	✓
图片查询	✓	✓	部分	部分
视频帧查询	✓	✓	部分	部分

长文档检索由纯文本嵌入索引（BGE-M3）承载，与多模态向量库并行，统一在召回 → 重排链路中合并结果。

CHAPTER 06

多场景复用调用

图片支持智能裁剪与多比例输出；视频按原文件 + 片段定位精准下载。

6.1 图片复用 · 智能裁剪与多比例输出

基于显著性图（Saliency）与人脸 / 主体检测，结合目标比例自动构图，避免主体被切。

Saliency 模型：BASNet（推荐）或 U²-Net；
主体保护：结合 PP-YOLOE+ 检测人脸 / 主体框，构图时强制保留；
多比例并行输出：单次提交，输出 9:16 / 16:9 / 1:1 / 3:4 等全部目标尺寸。

01

原图调取

原始 / 优化版可选

→

02

主体识别

显著性 + 人脸

→

03

比例适配

多比例并行

→

04

编码导出

JPG / PNG / WebP

→

05

下载交付

下载 / 推送

6.2 视频复用 · 原文件 + 片段定位下载

FORM 视频以原始文件形态被调用，系统输出"视频原文件链接 + 命中片段时间码列表"，保留拍摄证据性，便于后续在创作环节按需剪辑。

01

检索命中

片段级定位

→

02

校验权限

RBAC + 密级

→

03

签发临时下载链接

短时签名 URL

→

04

原文件下载

附片段时间码清单

→

05

审计落库

下载行为留痕

6.3 复用形态总览

复用类型	系统输出形式	说明
图片复用	原图 / 优化版 + 多比例适配版	原图与优化版本并行保存，调用方可按场景自由选择，并支持回滚。
视频复用	原始视频文件 + 命中片段时间码列表	保留原始拍摄证据，调用方按时间码定位到秒级片段。

CHAPTER 07

权限与协同

RBAC + ABAC 双引擎，覆盖角色、属性、密级、时效四维度。

7.1 权限模型

RBAC（角色）：系统管理员 / 资产管理员 / 优化运营 / 审核员 / 普通调用员；
ABAC（属性）：按素材密级（公开 / 内部 / 机密）、归属机构（总部 / 分行 / 网点）、有效期、地域等动态约束；
策略组合：所有访问请求经策略决策点（PDP）综合判定，结果写入审计库；
"普通调用员"的"受限"含义：仅可访问密级 ≤ "内部"且归属机构匹配的素材，且单次下载需走二级审批。

7.2 角色操作矩阵

角色 / 权限	查看	上传	优化	调用	审核	下架	导出审计
系统管理员	✓	✓	✓	✓	✓	✓	✓
资产管理员	✓	✓	委派	✓	✓	✓	—
审核员	✓	—	—	—	✓	建议	—
优化运营	✓	✓	✓	协助	—	—	—
普通调用员	受限	—	—	受限	—	—	—

7.3 协同工作流

01

需求提报

业务方

→

02

素材准备

优化运营

→

03

AI 优化

仅图片

→

04

审核

审核员

→

05

上架

资产管理员

→

06

调用 / 复盘

业务方 / 系统

CHAPTER 08

安全与合规

金融行业核心约束。本章给出技术层的具体落实点。

8.1 安全控制清单

维度	技术措施
部署形态	全栈私有化，K8s 部署在内网；模型权重、向量索引、原始素材均不出银行边界。
网络隔离	VPC 三段式划分（业务区 / 数据区 / 管理区），跨段流量经防火墙白名单。
传输加密	TLS 1.3 强制；管理面接口启用双向 mTLS。
存储加密	对象存储 AES-256 静态加密；密钥经 KMS 集中托管，定期轮转；可对接国密 SM 系列硬件加密机。
身份认证	对接行内 LDAP / AD；高权限操作启用 MFA；可选硬件 Key。
权限控制	RBAC + ABAC 双引擎，策略与代码分离，可热更新。
原始素材保护	视频原始文件全程不可修改；图片原版本始终保留；删除采用软删除 + T+N 物理清理。
备份与灾备	本地全量 + 异地增量；每季度做恢复演练；RPO / RTO < 1h。
合规对齐	等保 2.0 三级、JR/T 0071《金融行业网络安全等级保护实施指引》、个人信息保护法。

8.2 审计防篡改方案

普通数据库默认不防篡改，本系统采用三档可选方案，按行内安全等级要求选用：

等级	方案	说明
基础	独立审计库 · 仅授权 INSERT	物理隔离，账号权限收敛到只能写入；运维角色不可改写。
增强	追加写 + Hash Chain	每条审计记录 hash 上一条记录，链式校验；导出离线日志归档。
最高	WORM 存储 / 区块链存证	对接行内 WORM 存储设备，或将关键 hash 上链至行内联盟链。

8.3 模型权重导入合规通道

系统强调"数据不出内网"，但模型权重首次需要从 HuggingFace / GitHub 下载。为此建立受控导入通道：

01

隔离区下载

白名单工作站

→

02

安全扫描

病毒 / 恶意权重

→

03

许可证审查

合规 / 法务

→

04

登记 + 入仓

内网模型仓库

→

05

服务调用

仅从仓库加载

K8s 容器镜像、依赖包、操作系统更新走相同隔离通道，由内网镜像源统一分发。

PRINCIPLE 所有 AI 能力（识别、检索、优化、评分等）全链路在内网完成，素材与元数据始终保留在私有化环境内。新模型能力均通过 8.3 通道离线导入并接入内网模型仓库。

CHAPTER 09

素材生命周期与模型治理

素材状态机 + AI 自动清理 + 模型版本管理与灰度发布。

9.1 素材状态机

S0

草稿

仅作者可见

→

S1

待审

审核员队列

→

S2

已上架

可被检索

→

S3

冻结

暂停调用

→

S4

归档

冷存储

→

S5

销毁

可审计销毁

9.2 价值评估与清理策略

FORMULA 价值分 = α · 访问频次 + β · 适配度 + γ · 时效性衰减 + δ · 复用次数

价值分长期低于阈值 → 系统推送清理建议；
清理需经资产管理员二次确认（敏感素材双人复核），全流程留痕；
归档素材进入冷存储，仅保留元数据可查；销毁需走专项审批。

9.3 模型版本管理与灰度发布

所有 AI 模型（嵌入、打标、适配度、Rerank 等）作为系统的"可替换引擎"，必须有规范的版本管理与灰度上线机制：

阶段	动作	负责
注册	新模型权重入模型注册中心（MLflow / 自建），打版本号与 hash	模型工程
离线评估	跑 Benchmark 数据集，对比上一版本的关键指标（Recall / nDCG / 准确率）	模型工程
影子流量	新模型在线但不影响真实结果，仅记录差异	系统自动
灰度切换	真实流量按 5% → 50% → 100% 分批切换，每档观察 24h	资产管理员审批
一键回滚	任意阶段发现指标恶化，1 分钟内回滚到稳定版本	系统自动 / 手动
下线	旧版本权重保留 90 天后归档，便于审计与回放	模型工程

9.4 增量学习闭环

采用记录回流为正样本，驳回 / 删除回流为负样本；
每月或每季度重训打标模型与适配度模型，进入 9.3 的灰度流程；
所有训练数据、模型权重、评估报告归档保存，支持事后审计。

CHAPTER 10

技术选型一览

全栈开源、可私有化；AI 模型优先选用国产团队开源方案。

10.1 国产化原则

所有 AI 模型首选国产团队开源（阿里达摩院、智源、百度、腾讯 ARC 等）；
无国产对标的模型，选用许可证宽松（Apache 2.0 / MIT）的国际开源，且必须能完全离线推理；
所有模型权重经第 08 章合规通道一次性导入内网模型仓库，训练 / 推理过程不出内网；
基础设施层（容器、数据库、对象存储等）均为成熟开源项目，可被行内现有运维体系接管。

10.2 全栈选型一览

模块	推荐选型（来源）	说明 / 备选
— AI 模型层 —
多模态嵌入	Chinese-CLIP ViT-L/14 阿里达摩院 OFA · 国产	检索核心模型；中文语义对齐效果最佳。
文本嵌入 / 重排	BGE-M3 / BGE-Reranker-large 智源研究院 · 国产	长文档独立索引 + 检索精排。
OCR	PaddleOCR-v4 百度 PaddlePaddle · 国产	中英文识别工业级方案。
ASR 语音识别	FunASR 阿里达摩院 · 国产	替代 Whisper；中文识别更准；备选 SenseVoice（商汤）。
目标检测	PP-YOLOE+ / RT-DETR 百度 PaddleDetection · 国产	替代 YOLOv8；中文文档与样例完善。
开放词汇识别	RAM (Recognize Anything) OPPO + IDEA · 国产	识别未预定义类别。
图像超分	Real-ESRGAN 腾讯 ARC · 国产	备选 SwinIR。
人脸增强	GFPGAN 腾讯 ARC · 国产	备选 CodeFormer。
抠图	BiRefNet 中国学者主导 · 国产开源	备选 rembg / U²Net。
显著性检测	BASNet 国际开源	用于智能裁剪的主体识别。
图像质量评估	NIMA / MUSIQ 国际开源	用于适配度冷启动评分。
— 应用与中间件 —
应用框架	Python + FastAPI	如行内为 Java 栈，可换 Spring Boot。
任务队列	Celery + Redis 哨兵	RabbitMQ（更强投递保证）。
视频元数据 / 抽帧	FFmpeg（只读模式）	用于读取元数据、抽取关键帧供检索与定位。
模型注册中心	MLflow	用于第 09 章模型版本管理与灰度。
— 数据与存储 —
关系数据库	PostgreSQL 16	可对接行内国产数据库（达梦 / 人大金仓）。
向量数据库	pgvector（与关系库同栈）首期	Milvus / Qdrant（规模升级时切换）。
对象存储	MinIO（S3 兼容）	Ceph（更适合 PB 级）。
缓存	Redis（哨兵 / 集群）	—
— 平台与安全 —
容器编排	Kubernetes	可对接行内国产容器云（KubeSphere）。
API 网关	APISIX Apache · 中国主导	替代 Kong。
身份 / SSO	Keycloak	对接行内 AD / LDAP / 国产堡垒机。
监控 / 告警	Prometheus + Grafana + Alertmanager	—
日志 / 审计	ELK + 独立审计库（仅追加）	OpenSearch（如规避商业许可）。
密钥管理	HashiCorp Vault	对接行内 KMS / 国密 SM 硬件加密机。

CHAPTER 11

部署拓扑与资源

私有化部署的网络分区、节点角色与起步规模。

11.1 网络分区

FIG. 11-1 · Private Deployment Topology

业务区10.10.0.0/16

// EDGE

APISIX 网关

// APP

API 服务（FastAPI · 多副本）

// APP

Web 控制台

// AUTH

Keycloak SSO

数据区10.20.0.0/16

// DB

PostgreSQL 主从

// VEC

pgvector / Milvus

// OBJ

MinIO 集群（4+ 节点）

// CACHE

Redis 哨兵

// AI · L1

小卡 GPU 池

// AI · L2

中卡 GPU 池

// AI · L3

大卡 GPU 池

管理区10.30.0.0/16

// K8S

Control Plane

// OBS

Prometheus + Grafana

// LOG

ELK + 独立审计库

// SEC

Vault / KMS

// MOD

MLflow 模型仓库

// BAK

本地 + 异地备份

11.2 节点资源建议（千万级素材起步）

节点角色	规格（参考）	数量建议
API / 应用节点	16 vCPU · 32 GB · SSD 200 GB	≥ 3（高可用）
关系库 + 向量库	16 vCPU · 64 GB · NVMe 1 TB	1 主 1 备
对象存储	8 vCPU · 32 GB · SATA 16 TB × N	≥ 4（EC 编码冗余）
GPU L1（小卡池）	16 vCPU · 32 GB · T4 / RTX 4060 × 1~2	2~4 台
GPU L2（中卡池）	32 vCPU · 64 GB · A10 / L4 × 1~2	2 台起步
GPU L3（大卡池）	32 vCPU · 128 GB · A100 / H800 × 1	1 台（按训练频次）
K8s Control Plane	8 vCPU · 16 GB · SSD 200 GB	3（奇数仲裁）
监控 / 日志 / 审计	16 vCPU · 32 GB · SSD 1 TB	2

NOTE 实际配置需结合素材规模、并发预估、留存周期重新核算；上表为千万级素材 / 百级并发的起步参考。

CHAPTER 12

性能与容量指标

承诺 SLA、可扩展性边界与容量估算依据。

12.1 性能 SLA（含前提条件）

检索延迟 P95

< 800ms

千万级 · pgvector + Rerank

检索延迟 P95

< 300ms

百万级 · 不开 Rerank

单图打标

< 2s

L1 GPU · 含分类 + 向量 + 评分

1 分钟视频处理

< 30s

L2 GPU · 抽帧 + ASR + 打标

系统可用性

99.9%

业务区核心服务 · 不含计划停机

并发查询

≥ 100QPS

单 API 集群 · 缓存命中态

并发优化

≥ 50任务

L2 GPU 池 · 含排队

RPO / RTO

< 1h

本地 + 异地双备

12.2 容量估算（参考公式）

类目	单条均值	100 万规模	1000 万规模
原始图片	2 MB	2 TB	20 TB
派生图片（超分 + 多比例）	5 MB	5 TB	50 TB
原始视频	500 MB	500 TB	5 PB
视频抽帧（按 1 FPS）	—	≈ 1 亿帧	≈ 10 亿帧
向量索引（768 维 · float32）	3 KB / 向量	≈ 300 GB	≈ 3 TB
关系库 + 元数据	1 KB / 条	1 GB	10 GB
审计日志（年留存）	0.5 KB / 操作	≈ 50 GB	≈ 500 GB

上表为典型场景估算，实际需根据银行素材结构、视频时长分布、抽帧策略调整；视频是绝对存储大头，建议分层存储（热 SSD / 温 HDD / 冷归档）。

SCALABILITY 存储、向量库、推理节点均独立扩容，互不影响。当素材规模突破 pgvector 阈值时，可将向量层平滑迁移至 Milvus 集群，业务无感。

CHAPTER 13

典型业务场景 · AI 辅助操作流程

从用户视角出发，看 AI 在每一步具体替业务做了什么。三个典型场景覆盖检索调用、入库、清理。

13.1 AI 在系统中扮演的四个角色

在用户视角下，AI 不是一个抽象概念，而是分布在每一步操作里的"自动同事"，承担四类工作：

// AI · 01

智能整理员

素材一进来，自动看图、自动打标、自动归类、自动评分，把堆积素材整理成可检索资产。

// AI · 02

语义检索官

理解业务自然语言（"国庆理财海报"），跨图、视频、文本统一召回；找"类似的"也能命中。

// AI · 03

画质提升师

对图片做超分、修复、抠图、自动调色；并按调用比例智能裁剪输出多版本。

// AI · 04

资产分析师

长期跟踪每条素材的价值（频次 + 适配度 + 时效），主动提醒清理低效资产、突出高价值资产。

13.2 场景一 · 业务方做"国庆理财海报"

// USER · 业务部 · 设计岗

找一组国庆相关、适合理财场景的图片素材

耗时：约 3 分钟

国庆要出一组理财产品海报，给我准备一些国庆氛围 + 营业网点 + 理财签约的素材，主图要 1:1 和 9:16 都来一套。

用户操作

→

AI 辅助

STEP 01

在搜索框输入"国庆理财营业网点"，选场景过滤"营业网点 / 总部"

→

语义扩展自动扩展同义词与场景化表达："国庆"→"国庆节 / 双节 / 庆典 / 红色氛围"，用户不必手动列关键词。

STEP 02

等待结果（< 1s）

→

多模态检索三段式流水线：标签强过滤 → 向量召回 200 → 重排 20，跨图片 + 视频片段统一召回，命中视频自动定位到秒级时间码。

STEP 03

查看结果列表

→

智能排序按"适配度评分 × 时效性 × 历史复用"加权排序，高适配素材自动置顶，低适配标灰提示。

STEP 04

勾选 5 张图，点"按比例导出 1:1 + 9:16"

→

智能裁剪对每张图识别人脸 + 主体显著性，按目标比例自动构图，主体绝不被切；2 套比例并行输出。

STEP 05

点击下载

→

权限 + 审计校验密级与归属机构，签发短时下载链接，调用行为自动落审计库。

OUTPUT 5 张原图 + 5 张 1:1 海报版 + 5 张 9:16 信息流版 = 15 张可直接交付的成品，3 分钟完成。若以传统方式翻找网盘 + 人工裁切，平均耗时 ≥ 2 小时。

13.3 场景二 · 摄影部门批量上传新拍照片

// USER · 宣传部 · 摄影 / 上传岗

把刚拍的 800 张分行开业素材入库

耗时：约 5 分钟提交，30 分钟系统跑完

这是上周分行开业拍的 800 张，按以前的流程要 3 个人花 2 天打标、归类、挑废片，现在直接拖进系统。

用户操作

→

AI 辅助

STEP 01

选择"批量上传"，拖入 800 张照片，标注业务来源 = "XX 分行开业"

→

入库登记自动落对象存储，登记主表，状态 = pending_tag；原图永久保留，不会被覆盖。

STEP 02

无须操作，等待

→

自动识别逐张跑：场景检测（识别"分行 / 营业厅 / 大门"）+ 人脸检测 + OCR 识别（柜台号 / 横幅文字）+ 岗位分类。

STEP 03

无须操作，等待

→

自动归类根据识别结果，自动挂到 L1 图片素材 / L2 分行 / L3 业务场景 + 氛围人物，三级分类一次到位。

STEP 04

无须操作，等待

→

质量评分用 NIMA / MUSIQ 给每张图打适配度分：≥ 80 高适配（约 540 张）/ 50–80 中适配（约 200 张）/ < 50 低适配（约 60 张）。

STEP 05

无须操作，等待

→

优化推荐对清晰度低但题材重要的图，自动推荐"是否启动超分 / 修复"，等候人工确认。

STEP 06

登录后台，看到"待审清单 800"

→

智能审核辅助清单已按适配度排序，AI 已标出疑似重复 / 有人脸需脱敏 / 含品牌字 LOGO 的素材，审核员只需复核异常项。

STEP 07

批量通过 / 一键上架

→

入库完成所有素材状态切到"已上架"，立即可被全行检索调用。

OUTPUT 800 张照片在30 分钟内全部完成打标、归类、评分、推荐优化，待审清单已结构化。传统流程：3 人 × 2 天 ≈ 48 工时；AI 辅助后：1 人 × 0.5 小时 ≈ 0.5 工时，效率提升约 96 倍。

13.4 场景三 · 资产管理员每月做素材清理

// USER · 资产管理员

定期清理低效素材、释放存储

耗时：约 15 分钟

资产库越攒越大，每个月得清一次。但哪些该清、哪些是"压箱底好东西"我自己根本说不清。

用户操作

→

AI 辅助

STEP 01

打开"资产价值看板"

→

价值分析系统按"频次 + 适配度 + 时效衰减 + 复用次数"为每条素材打价值分（0-100），分布图一目了然。

STEP 02

查看 AI 推荐的"建议清理列表（412 条）"

→

推荐+解释每条都附带原因，例如"价值分 23 · 上次调用 320 天前 · 已被同类高分素材替代"，让管理员有判断依据。

STEP 03

抽样复核 30 条，发现 2 条"压箱底"

→

反馈学习管理员把这 2 条标记为"保留"，反馈进入价值模型增量训练，下次评分更贴近业务判断。

STEP 04

批量执行：归档 380 条 + 销毁 30 条

→

安全执行归档进入冷存储；销毁需双人复核（敏感素材自动触发）；所有操作落审计库，可追溯。

STEP 05

查看"清理报告"

→

效益反馈本次清理释放存储 1.4 TB、减少索引开销、检索速度提升约 8%；自动归档可一键恢复。

OUTPUT AI 主动发现 + 解释 + 安全执行的清理流程，把"清理素材"从主观决策变成数据驱动决策。管理员从"翻库筛废"变成"复核 + 拍板"，单月节省工时 ≥ 90%。

13.5 价值总结 · AI 辅助带来的三层质变

层级	体现	对业务的意义
效率层	找素材：2 小时 → 3 分钟整理素材：48 工时 → 0.5 工时	把人从"搬砖"中解放出来，集中精力做决策与创意。
质量层	智能排序 / 智能裁剪 / 适配度评分	"挑出来的"永远是相对最适配的素材，输出质量稳定。
沉淀层	价值评分 / 增量学习 / 模型迭代	系统越用越懂业务，组织内的隐性经验被持续固化为模型能力。

CHAPTER 14

运维与对接概要

对外 API 能力、监控指标体系与应急预案要点。

13.1 对外 API 能力清单

能力域	关键 API	说明
素材接入	上传 · 批量导入 · 同步	支持单条上传、批量任务、断点续传、目录同步。
检索	关键词 · 向量 · 多模态	统一入口；支持过滤参数（密级、机构、时效）。
调用	图片下载 · 多比例导出 · 视频原文件下载（含片段定位）	所有调用必须带身份与用途；签发短时签名链接。
优化	提交优化任务 · 查询任务状态 · 结果回调	面向图片；异步任务，原图与优化版本并行保存。
资产管理	修改标签 · 状态流转 · 软删除	所有变更经权限校验并写审计。
审计	查询操作记录 · 导出审计报表	仅授权角色可访问。
系统管理	用户 · 权限 · 模型版本 · 灰度策略	管理员后台能力。

13.2 监控指标体系（三类必看）

类别	关键指标
业务监控	检索 QPS / 延迟分布 / 调用成功率 / 优化任务积压数 / 上传失败率
模型监控	模型推理延迟 / GPU 利用率 / 显存占用 / 适配度评分分布漂移 / Recall@10 趋势
安全监控	异常登录 / 越权访问尝试 / 高敏素材调用频次 / 审计日志完整性校验

13.3 应急预案要点

故障场景	处置策略
GPU 节点宕机	任务自动迁移到同级其他节点；超阈值排队时降级为 CPU 备用通路（仅检索）。
模型推理异常	触发 9.3 灰度回滚；API 返回标准错误码，前端降级为关键词检索。
向量库故障	自动切换为关键词 + 标签检索降级模式，并告警。
对象存储分区损坏	EC 编码自动修复；关键素材异地备份秒级切换。
误删素材	软删除窗口期内（默认 30 天）一键恢复；超期需走数据库备份恢复流程。
权限策略错配	策略热回滚到上一稳定版本；事件落审计并告警 SOC。

13.4 持续运营节奏

日常：监控告警值班 · 任务队列健康检查 · 备份完成校验；
每月：模型指标复盘 · 适配度模型增量训练 · 容量预警评估；
每季度：灾备恢复演练 · 安全合规自查 · 模型大版本评估；
每年：等保测评 · 系统架构复盘 · 容量规划重审。