Świat modeli LLM ewoluuje w zawrotnym tempie. Ten artykuł wyjaśnia 8 typów LLM, omawia możliwości lokalnych wdrożeń, chińskie open-source modele i kilka kluczowych platform chmurowych.
8 Typów LLM w AI Agentach
Nie wszystkie LLM są takie same. Różne architektury są zoptymalizowane do różnych zadań:
1. GPT (Generative Pretrained Transformer)
Przeznaczenie: General-purpose text understanding and generation backbone.
- Podstawowa architektura Transformer
- Trening na ogromnych zbiorach tekstu
- Zastosowanie: chatboty, asystenci, content generation
2. MoE (Mixture of Experts)
Przeznaczenie: Routes tokens to specialized “experts” to scale capacity efficiently.
- Zamiast aktywowania wszystkich parametrów naraz, routing kieruje tokeny do wyspecjalizowanych “ekspertów”
- Efekt: ogromna capacity przy niższych kosztach inference
- Przykłady: Qwen3.5-397B (aktywuje tylko 17B na token!), Mixtral, Gemini
3. LRM (Large Reasoning Model)
Przeznaczenie: Tuned for multi-step reasoning and RAG/tool use.
- Zoptymalizowane do rozumowania krok po kroku
- Najlepsze do złożonych problemów matematycznych, logicznych
- Przykłady: Claude Opus (extended thinking), GPT-o1/o3
4. VLM (Vision-Language Model)
Przeznaczenie: Processes images + text for multimodal perception.
- Early fusion training na multimodal tokenach
- Obsługuje obrazy, diagramy, tabele, kod ze screenshotów
- Przykłady: Qwen3.5 (natywnie multimodalne), GPT-4V, Gemini Vision
5. SLM (Small Language Model)
Przeznaczenie: Compact, fast models for edge/on-device or low-latency tasks.
- Działają na urządzeniach mobilnych lub z ograniczoną mocą
- Przykłady: Qwen3.5-0.8B, Phi-3, Gemma-2B
6. LAM (Large Action Model)
Przeznaczenie: Plans and executes actions via tools/APIs/robots.
- Specjalizowane do agentowego działania
- Rozumieją narzędzia, API, sekwencje akcji
- Przykłady: Claude (computer use), modele agencyjne
7. HLM (Hierarchical Language Model)
Przeznaczenie: Layered coordination for complex workflows.
- Hierarchiczna koordynacja (user/item/task submodels)
- Dla złożonych multi-step workflows
8. LCM (Large Concept Model)
Przeznaczenie: Maps words to higher-level concepts for abstraction.
- Rozumienie semantyczne wyższego poziomu
- Abstrahuje od słów do konceptów
Jak Działają LLM: Wizualizacja
Najlepszym sposobem zrozumienia jak działają LLM są animacje 3Blue1Brown (Grant Sanderson) z serii “Deep Learning”:
“Transformers, the tech behind LLMs | Deep Learning Chapter 5”
Kluczowe koncepty do wizualizacji:
- Mechanizm attention w wysokich wymiarach
- Token embeddings jako wektory w przestrzeni
- Jak context window wpływa na generację
“Visualizing high-dimensional vector spaces and attention mechanisms is the only way to truly bridge the gap between abstract math and conceptual intuition.”
Kanał YouTube: 3Blue1Brown
Qwen3.5: Rodzina Modeli Alibaba
Alibaba wypuściło rodzinę 9 modeli w 16 dni - wszystkie natywnie multimodalne, wszystkie na Apache 2.0.
Rozmiary
- 0.8B - dla urządzeń mobilnych
- 1.8B - lekkie zastosowania
- 4B - balance wydajność/rozmiar
- 9B - lokalne stacje robocze
- 35B-A3B (MoE) - nowy standard lokalnych wdrożeń
- 72B - serwery
- 397B-A17B (MoE) - flagowy model
Qwen3.5-9B: Lokalny Powerhouse
Specyfikacje:
- 9B parametrów, dense model
- 262,144 tokenów context length
- ~7GB RAM do uruchomienia lokalnie
- Natywna obsługa wizji (Early Fusion)
- Obsługa narzędzi + reasoning
- 201 języków i dialektów
Benchmark:
- MMLU-Pro: 82.5
- Na poziomie poprzedniej generacji Qwen3-30B (3x większego!)
Na RTX 4060 (8GB VRAM):
- 16 tokenów/sekundę decode
- 4.56 sekundy do pierwszego tokenu
- $0 - bez API, bez drogiego sprzętu
# W LM Studio
qwen/qwen3.5-9b
Qwen3.5-35B-A3B: Model do Lokalnych Wdrożeń
35 miliardów parametrów, ale aktywuje tylko 3 miliardy na token dzięki architekturze MoE. Łączy:
- Wydajność dużego modelu
- Koszty małego modelu
- Lokalną deployability
Flagowy: Qwen3.5-397B-A17B
- 397B parametrów
- Aktywuje tylko 17B na token (512 ekspertów, 10 routowanych + 1 współdzielony)
- Jeden z najlepszych agentów open-source
- Może działać na Mac Studio z odpowiednim RAM
Chiński Open-Source: Modele Klasy Opus
GLM-4.7-Flash-Claude-Opus-4.5-High-Reasoning-Distill
Dystylowany model łączący:
- Architekturę GLM-4.7-Flash
- High-reasoning capabilities z Claude 4.5 Opus
- Format GGUF (kompatybilny z llama.cpp)
- Trening na 250x specjalistycznych reasoning datasets
Kluczowe wartości:
- Elite reasoning dystylowany do GGUF
- Apache 2.0 (commercial use)
- 98K+ pobrań (silna adopcja community)
- Lokalne wdrożenie bez kosztów chmury
# Uruchomienie przez llama.cpp
./llama-server -m GLM-4.7-Flash-Claude-Opus-4.5-High-Reasoning-Distill.gguf
“The name alone costs 1k tokens” (żart społeczności - imię modelu jest bardzo długie)
Qwen3.5-122B-A10B-PRISM-PRO-GGUF
Wersja community z optymalizacją Pareto (smallest size, highest quality):
- 122B parametrów (MoE)
- Aktywuje ~10B na token
- Dostępna na Hugging Face
- Działa nawet na mobile
Gemini: 5-Godzinny Kurs Bezpłatny
Google Gemini to główny konkurent Claude i GPT. Dostępny pełny kurs (5 godzin) obejmujący:
- Gemini API
- Build & Automate workflows
- Integracje
Kluczowa różnica Gemini vs Claude vs GPT:
- Gemini: najlepsza integracja z ekosystemem Google (Workspace, Search, Cloud)
- Claude: najlepsza dla złożonego kodowania i analizy dokumentów
- GPT: najszerszy ekosystem plugin/tool
“Most teams building on Gemini right now aren’t using the public docs - they’re working off internal tooling that changes weekly.”
LM Studio: Desktop App dla Lokalnych Modeli
LM Studio to najwygodniejsza aplikacja desktopowa do uruchamiania lokalnych LLM.
Obsługiwane modele:
- Qwen3.5, Gemma3, DeepSeek, gpt-oss, i dziesiątki innych
- Wszystkie w formacie GGUF
Funkcje:
- GUI do zarządzania modelami
- API kompatybilne z OpenAI (endpoint /v1)
- MCP client support
- JavaScript i Python SDK
- CLI (
lms) do headless deployments
Nowe: LM Link - połączenie z remotnymi instancjami LM Studio (jak lokalne modele na zdalnym sprzęcie)
Trend: Local AI Movement
“The future is local” - coraz więcej modeli działa na konsumenckim sprzęcie:
Dlaczego lokalne modele?
- Privacy: Kod nigdy nie opuszcza urządzenia
- Koszt: $0.00 inference
- Latency: Brak network roundtrips
- Niezależność: Nie zależy od zewnętrznych serwisów
Minimalne wymagania dla modeli 7-9B:
- RTX 4060 (8GB VRAM) - wystarczy!
- M1/M2 Mac z 16GB RAM - wygodna opcja
- Raspberry Pi 5 - dla bardzo małych modeli
Historia: Możliwość uruchamiania Claude Code z Ollama v0.14+ (lokalne modele jako drop-in replacement dla Anthropic API)
Ocena Modeli: Co Mierzyć
Popularne benchmarki:
| Benchmark | Co mierzy |
|---|---|
| MMLU-Pro | Wiedza akademicka |
| GPQA Diamond | Wiedza z dziedzin naukowych |
| HumanEval | Kodowanie Python |
| Math | Umiejętności matematyczne |
| FinanceBench | Analiza finansowa |
| SWE-bench | Software engineering |
Ważna uwaga: Benchmark ≠ Production Performance. Zawsze testuj na własnych danych.
Podsumowanie: Który Model Kiedy?
| Przypadek użycia | Zalecany model |
|---|---|
| Produkcja, kompleksowe zadania | Claude Opus 4.6 / GPT-5 |
| Lokalne wdrożenie (7GB RAM) | Qwen3.5-9B |
| Lokalne wdrożenie (wysoka jakość) | Qwen3.5-35B-A3B |
| Serwery (open-source) | Qwen3.5-72B lub 397B |
| Reasoning (lokalnie) | GLM-4.7-Flash-Claude-Opus-4.5 distill |
| Integracja Google | Gemini |
| Multimodal (tekst+obraz) | Qwen3.5, GPT-4V, Claude 3.5+ |
| Edge/mobile | Qwen3.5-0.8B lub SLM |