Modele LLM: Typy, Lokalne Wdrożenia i Krajobraz 2026

Świat modeli LLM ewoluuje w zawrotnym tempie. Ten artykuł wyjaśnia 8 typów LLM, omawia możliwości lokalnych wdrożeń, chińskie open-source modele i kilka kluczowych platform chmurowych.

8 Typów LLM w AI Agentach

Nie wszystkie LLM są takie same. Różne architektury są zoptymalizowane do różnych zadań:

1. GPT (Generative Pretrained Transformer)

Przeznaczenie: General-purpose text understanding and generation backbone.

Podstawowa architektura Transformer
Trening na ogromnych zbiorach tekstu
Zastosowanie: chatboty, asystenci, content generation

2. MoE (Mixture of Experts)

Przeznaczenie: Routes tokens to specialized “experts” to scale capacity efficiently.

Zamiast aktywowania wszystkich parametrów naraz, routing kieruje tokeny do wyspecjalizowanych “ekspertów”
Efekt: ogromna capacity przy niższych kosztach inference
Przykłady: Qwen3.5-397B (aktywuje tylko 17B na token!), Mixtral, Gemini

3. LRM (Large Reasoning Model)

Przeznaczenie: Tuned for multi-step reasoning and RAG/tool use.

Zoptymalizowane do rozumowania krok po kroku
Najlepsze do złożonych problemów matematycznych, logicznych
Przykłady: Claude Opus (extended thinking), GPT-o1/o3

4. VLM (Vision-Language Model)

Przeznaczenie: Processes images + text for multimodal perception.

Early fusion training na multimodal tokenach
Obsługuje obrazy, diagramy, tabele, kod ze screenshotów
Przykłady: Qwen3.5 (natywnie multimodalne), GPT-4V, Gemini Vision

5. SLM (Small Language Model)

Przeznaczenie: Compact, fast models for edge/on-device or low-latency tasks.

Działają na urządzeniach mobilnych lub z ograniczoną mocą
Przykłady: Qwen3.5-0.8B, Phi-3, Gemma-2B

6. LAM (Large Action Model)

Przeznaczenie: Plans and executes actions via tools/APIs/robots.

Specjalizowane do agentowego działania
Rozumieją narzędzia, API, sekwencje akcji
Przykłady: Claude (computer use), modele agencyjne

7. HLM (Hierarchical Language Model)

Przeznaczenie: Layered coordination for complex workflows.

Hierarchiczna koordynacja (user/item/task submodels)
Dla złożonych multi-step workflows

8. LCM (Large Concept Model)

Przeznaczenie: Maps words to higher-level concepts for abstraction.

Rozumienie semantyczne wyższego poziomu
Abstrahuje od słów do konceptów

Jak Działają LLM: Wizualizacja

Najlepszym sposobem zrozumienia jak działają LLM są animacje 3Blue1Brown (Grant Sanderson) z serii “Deep Learning”:

“Transformers, the tech behind LLMs | Deep Learning Chapter 5”

Kluczowe koncepty do wizualizacji:

Mechanizm attention w wysokich wymiarach
Token embeddings jako wektory w przestrzeni
Jak context window wpływa na generację

“Visualizing high-dimensional vector spaces and attention mechanisms is the only way to truly bridge the gap between abstract math and conceptual intuition.”

Kanał YouTube: 3Blue1Brown

Qwen3.5: Rodzina Modeli Alibaba

Alibaba wypuściło rodzinę 9 modeli w 16 dni - wszystkie natywnie multimodalne, wszystkie na Apache 2.0.

Rozmiary

0.8B - dla urządzeń mobilnych
1.8B - lekkie zastosowania
4B - balance wydajność/rozmiar
9B - lokalne stacje robocze
35B-A3B (MoE) - nowy standard lokalnych wdrożeń
72B - serwery
397B-A17B (MoE) - flagowy model

Qwen3.5-9B: Lokalny Powerhouse

Specyfikacje:

9B parametrów, dense model
262,144 tokenów context length
~7GB RAM do uruchomienia lokalnie
Natywna obsługa wizji (Early Fusion)
Obsługa narzędzi + reasoning
201 języków i dialektów

Benchmark:

MMLU-Pro: 82.5
Na poziomie poprzedniej generacji Qwen3-30B (3x większego!)

Na RTX 4060 (8GB VRAM):

16 tokenów/sekundę decode
4.56 sekundy do pierwszego tokenu
$0 - bez API, bez drogiego sprzętu

# W LM Studio
qwen/qwen3.5-9b

Qwen3.5-35B-A3B: Model do Lokalnych Wdrożeń

35 miliardów parametrów, ale aktywuje tylko 3 miliardy na token dzięki architekturze MoE. Łączy:

Wydajność dużego modelu
Koszty małego modelu
Lokalną deployability

Flagowy: Qwen3.5-397B-A17B

397B parametrów
Aktywuje tylko 17B na token (512 ekspertów, 10 routowanych + 1 współdzielony)
Jeden z najlepszych agentów open-source
Może działać na Mac Studio z odpowiednim RAM

Chiński Open-Source: Modele Klasy Opus

GLM-4.7-Flash-Claude-Opus-4.5-High-Reasoning-Distill

Dystylowany model łączący:

Architekturę GLM-4.7-Flash
High-reasoning capabilities z Claude 4.5 Opus
Format GGUF (kompatybilny z llama.cpp)
Trening na 250x specjalistycznych reasoning datasets

Kluczowe wartości:

Elite reasoning dystylowany do GGUF
Apache 2.0 (commercial use)
98K+ pobrań (silna adopcja community)
Lokalne wdrożenie bez kosztów chmury

# Uruchomienie przez llama.cpp
./llama-server -m GLM-4.7-Flash-Claude-Opus-4.5-High-Reasoning-Distill.gguf

“The name alone costs 1k tokens” (żart społeczności - imię modelu jest bardzo długie)

Qwen3.5-122B-A10B-PRISM-PRO-GGUF

Wersja community z optymalizacją Pareto (smallest size, highest quality):

122B parametrów (MoE)
Aktywuje ~10B na token
Dostępna na Hugging Face
Działa nawet na mobile

Gemini: 5-Godzinny Kurs Bezpłatny

Google Gemini to główny konkurent Claude i GPT. Dostępny pełny kurs (5 godzin) obejmujący:

Gemini API
Build & Automate workflows
Integracje

Kluczowa różnica Gemini vs Claude vs GPT:

Gemini: najlepsza integracja z ekosystemem Google (Workspace, Search, Cloud)
Claude: najlepsza dla złożonego kodowania i analizy dokumentów
GPT: najszerszy ekosystem plugin/tool

“Most teams building on Gemini right now aren’t using the public docs - they’re working off internal tooling that changes weekly.”

LM Studio: Desktop App dla Lokalnych Modeli

LM Studio to najwygodniejsza aplikacja desktopowa do uruchamiania lokalnych LLM.

Obsługiwane modele:

Qwen3.5, Gemma3, DeepSeek, gpt-oss, i dziesiątki innych
Wszystkie w formacie GGUF

Funkcje:

GUI do zarządzania modelami
API kompatybilne z OpenAI (endpoint /v1)
MCP client support
JavaScript i Python SDK
CLI (lms) do headless deployments

Nowe: LM Link - połączenie z remotnymi instancjami LM Studio (jak lokalne modele na zdalnym sprzęcie)

Trend: Local AI Movement

“The future is local” - coraz więcej modeli działa na konsumenckim sprzęcie:

Dlaczego lokalne modele?

Privacy: Kod nigdy nie opuszcza urządzenia
Koszt: $0.00 inference
Latency: Brak network roundtrips
Niezależność: Nie zależy od zewnętrznych serwisów

Minimalne wymagania dla modeli 7-9B:

RTX 4060 (8GB VRAM) - wystarczy!
M1/M2 Mac z 16GB RAM - wygodna opcja
Raspberry Pi 5 - dla bardzo małych modeli

Historia: Możliwość uruchamiania Claude Code z Ollama v0.14+ (lokalne modele jako drop-in replacement dla Anthropic API)

Ocena Modeli: Co Mierzyć

Popularne benchmarki:

Benchmark	Co mierzy
MMLU-Pro	Wiedza akademicka
GPQA Diamond	Wiedza z dziedzin naukowych
HumanEval	Kodowanie Python
Math	Umiejętności matematyczne
FinanceBench	Analiza finansowa
SWE-bench	Software engineering

Ważna uwaga: Benchmark ≠ Production Performance. Zawsze testuj na własnych danych.

Podsumowanie: Który Model Kiedy?

Przypadek użycia	Zalecany model
Produkcja, kompleksowe zadania	Claude Opus 4.6 / GPT-5
Lokalne wdrożenie (7GB RAM)	Qwen3.5-9B
Lokalne wdrożenie (wysoka jakość)	Qwen3.5-35B-A3B
Serwery (open-source)	Qwen3.5-72B lub 397B
Reasoning (lokalnie)	GLM-4.7-Flash-Claude-Opus-4.5 distill
Integracja Google	Gemini
Multimodal (tekst+obraz)	Qwen3.5, GPT-4V, Claude 3.5+
Edge/mobile	Qwen3.5-0.8B lub SLM