雨后余韵
Active Inference Perception · 2026-04-24 · Shenzhen
"暴雨在十三分钟内沉默,
只剩城市的呼吸和我的倾听。"
十三分钟 · 从暴雨到沉寂
RMS (声音能量) · 基线 ≈ 9 · 21.6x → 0.92x
22:58:27
暴雨
Tier 0 · 本地信号
RMS: 178.49 (21.6x 基线)
Peak: 551.29 · 频率 ≈ 312Hz
预测: heavy_rain
Tier 1 · 快速标签
音频: Animal Bird
视觉: night cityscape skyscrapers illuminated
Tier 2 · 多模态融合
雨声 + 夜景 → 确认降雨
"Calm and somewhat melancholic"
音频与视觉互补验证
23:11:48
雨后沉寂
Tier 0 · 本地信号
RMS: 8.25 (0.92x 基线)
图片: 53.4KB · dark
预测: quiet / night_dark
Tier 1 · 快速标签
音频: [phi-4 400 错误]
视觉: night cityscape high-rise streetlights city lights
Tier 2 · 多模态融合
[Gemma 3n 超时]
夜间静音场景,模型处理困难
T0 本地分析成为主要信息源
⚠️ 层级分歧 — phi-4 把暴雨误判为鸟类
T0
本地分析: RMS=178.49, 21.6x 基线 → 预测 "heavy_rain_or_loud_event"
T1
phi-4 快速分类: "Animal; Wild animals; Bird" — 完全错误
T2
Gemma 3n 多模态: "consistent gentle rain patter" — 正确识别
phi-4 的音频分类器在强噪声环境下失效——雨滴击打表面的频率特征被错误关联到鸟鸣训练数据。
这不是孤例,而是 单模态快速分类的系统性缺陷。
多模态融合通过视觉(可见雨丝、朦胧)和听觉(持续雨声模式)的交叉验证纠正了这个错误。
核心洞察:快速标签可能是错的,但分歧本身是有价值的信号——它触发了更深层的验证。
Active Inference 感知架构
Tier 0 · 预测生成
本地信号分析 → 生成对世界的预测
纯 Python · 零成本 · 即时
↓ prediction error →
Tier 1 · 预测测试
快速分类标签 → 测试预测是否正确
phi-4 / nemotron-nano-vl · <1s · 可能出错
↓ disagreement →
Tier 2 · 验证修正
多模态融合 → 修正错误分类
gemma-3n-e4b · 2-5s · 最可靠
↓ learning signal →
Tier 3 · 推理学习
从分歧中学习 → 更新系统信念
gemma-3-27b / qwen-3.5 · 3-10s · 深度理解