Skip to main content
ClaudeWave
Skill126 repo starsupdated 2d ago

vlm-segmentation-engineering

>

Install in Claude Code
Copy
git clone --depth 1 https://github.com/AnastasiyaW/claude-code-config /tmp/vlm-segmentation-engineering && cp -r /tmp/vlm-segmentation-engineering/skills/ai-ml/vlm-segmentation ~/.claude/skills/vlm-segmentation-engineering
Then start a new Claude Code session; the skill loads automatically.

SKILL.md

# VLM + Segmentation + Diffusion Engineering

Скилл охватывает три тесно связанных домена. Выбери нужный раздел и загрузи соответствующий reference-файл.

## Навигация по доменам

| Задача | Reference файл |
|--------|---------------|
| Выбор модели сегментации, pipeline "текст → маски", VLM-стек, part-labeling | `references/vlm-segmentation.md` |
| Диффузионные архитектуры, schedulers, обучение, LoRA, text encoder fusion | `references/diffusion-engineering.md` |
| Два инстанса SAM3 на H100, MIG/MPS, memory, профилирование | `references/gpu-deployment.md` |

**Правило выбора:** если вопрос смешивает темы (например, "как деплоить диффузионную модель на H100") — прочитай оба релевантных файла.

---

## Быстрые ответы без чтения reference-файлов

### Рекомендованный pipeline "фраза → маски" (дефолт)
```
1. SAM3 PCS (текстовый концепт) → instance masks + boxes + scores
   ИЛИ
   Grounding DINO / OWLv2 / YOLO-World → boxes → SAM2.1 → masks

2. Part-labeling: отдельный классификатор по ROI + фиксированный словарь
```

### Рекомендованный pipeline "диффузия" (дефолт)
```
1. Backbone: UNet (просто) или DiT/Flow (масштабирование)
2. Latent diffusion (VAE → латенты → денойзер → VAE decode)
3. Text encoder: CLIP (SD), два CLIP (SDXL), Qwen3 (Flux.2 klein 9B)
4. Fine-tune: начинать с LoRA, full fine-tune только если нужно
5. Memory: AMP (BF16) → checkpointing → ZeRO/FSDP при масштабе
```

### Два инстанса SAM3 на H100 (дефолт)
```
MIG (рекомендовано) → аппаратная изоляция, QoS гарантирована
sudo nvidia-smi mig -cgi 4g.40gb,3g.40gb -C
CUDA_VISIBLE_DEVICES=<MIG-UUID> python worker.py

MPS (fallback) → кооперативный шеринг, без строгой изоляции
```

---

## Ключевые характеристики моделей (быстрая справка)

| Модель | Параметры | Лицензия | Главная сильная сторона |
|--------|-----------|----------|------------------------|
| SAM3 | 848M | SAM License (gated) | Open-vocab сегментация по тексту, все инстансы |
| SAM2.1-large | 224M | Apache-2.0 | Видео-трекинг, интерактивная сегментация, 39.5 FPS A100 |
| SAM2.1-tiny | 39M | Apache-2.0 | Быстрый, 91.2 FPS A100 |
| Florence-2-large | 770M | MIT | Унифицированные задачи через task prompt |
| EdgeTAM | ~SAM2-tiny | Apache-2.0 | 16 FPS на iPhone 15 Pro Max, CoreML |
| Grounding DINO | — | Apache-2.0 | Text-conditioned detection, boxes |
| YOLO-World | — | GPL-3.0 | Real-time open-vocab OD, 52 FPS V100 |

---

## Критические предупреждения

- **SAM3**: gated access на HF, кастомная SAM License — проверь перед продакшном
- **YOLO-World**: GPL-3.0 в репо — для коммерции нужна отдельная лицензия
- **Замена text encoder**: не plug-and-play, нужен projection + переобучение cross-attention
- **MIG vs MPS**: только MIG даёт аппаратную изоляцию VRAM/SM; MPS — кооперативный шеринг
- **Русский язык в промптах**: для Grounding DINO / OWLv2 / YOLO-World надёжнее EN + маппинг на RU