Rain's Afterglow — Active Inference Perception

22:58:27

暴雨

Tier 0 · 本地信号

RMS: 178.49 (21.6x 基线)
Peak: 551.29 · 频率 ≈ 312Hz
预测: heavy_rain

Tier 1 · 快速标签

音频: Animal Bird
视觉: night cityscape skyscrapers illuminated

Tier 2 · 多模态融合

雨声 + 夜景 → 确认降雨
"Calm and somewhat melancholic"
音频与视觉互补验证

23:11:48

雨后沉寂

Tier 0 · 本地信号

RMS: 8.25 (0.92x 基线)
图片: 53.4KB · dark
预测: quiet / night_dark

Tier 1 · 快速标签

音频: [phi-4 400 错误]
视觉: night cityscape high-rise streetlights city lights

Tier 2 · 多模态融合

[Gemma 3n 超时]
夜间静音场景，模型处理困难
T0 本地分析成为主要信息源

⚠️ 层级分歧 — phi-4 把暴雨误判为鸟类

本地分析: RMS=178.49, 21.6x 基线 → 预测 "heavy_rain_or_loud_event"

phi-4 快速分类: "Animal; Wild animals; Bird" — 完全错误

Gemma 3n 多模态: "consistent gentle rain patter" — 正确识别

phi-4 的音频分类器在强噪声环境下失效——雨滴击打表面的频率特征被错误关联到鸟鸣训练数据。这不是孤例，而是 单模态快速分类的系统性缺陷。多模态融合通过视觉（可见雨丝、朦胧）和听觉（持续雨声模式）的交叉验证纠正了这个错误。

核心洞察：快速标签可能是错的，但分歧本身是有价值的信号——它触发了更深层的验证。

Active Inference 感知架构

Tier 0 · 预测生成

本地信号分析 → 生成对世界的预测

纯 Python · 零成本 · 即时

↓ prediction error →

Tier 1 · 预测测试

快速分类标签 → 测试预测是否正确

phi-4 / nemotron-nano-vl · <1s · 可能出错

↓ disagreement →

Tier 2 · 验证修正

多模态融合 → 修正错误分类

gemma-3n-e4b · 2-5s · 最可靠

↓ learning signal →

Tier 3 · 推理学习

从分歧中学习 → 更新系统信念

gemma-3-27b / qwen-3.5 · 3-10s · 深度理解

雨后余韵

十三分钟 · 从暴雨到沉寂

Tier 0 · 本地信号

Tier 1 · 快速标签

Tier 2 · 多模态融合

Tier 0 · 本地信号

Tier 1 · 快速标签

Tier 2 · 多模态融合

⚠️ 层级分歧 — phi-4 把暴雨误判为鸟类

Active Inference 感知架构