MemPalace · Wiki
參考 / Reference

影片解讀技能 + Whisper 環境

本地 skill /video-understand 可用,能解讀 vampire 丟過來的短影片(畫面+字幕)

檔名 reference_video_understand_skill.md · 修改 2026-04-15 00:51 · session 6614b54a

vampire 要求 CC 能解讀短影片內容(TikTok/IG Reels/抖音等)。已建置本地工作流。

已安裝

  • ffmpeg (原本就有) — 抽影格、抽音訊
  • whisper-cpp 1.8.4 (brew 裝) — 本地語音轉文字
  • binary: /opt/homebrew/bin/whisper-cli
  • whisper base 模型 — 多語言,141MB
  • 位置: ~/.whisper-models/ggml-base.bin

使用方法

vampire 丟影片 → 觸發 /video-understand skill(位置 ~/.claude/skills/video-understand/SKILL.md)→ 自動: 1. ffmpeg 抽影格 (每秒 1 張) 2. ffmpeg 抽音訊 3. whisper 轉字幕 (auto 語言偵測) 4. Claude 讀影格 + 字幕 → 給解讀報告

效能

Mac Studio 36GB 跑 base 模型,3 秒影片處理約 450ms(whisper 部分)+ ffmpeg 抽幀幾乎瞬間。

限制

  • 超長影片 (>5min) 要先問要看整體還是片段
  • base 模型準確度尚可,若要更準可換 small/medium(需額外下載)
  • 完全本地、離線、不送雲端

← 回索引