Powrót do artykułów

Modele LLM: Typy, Lokalne Wdrożenia i Krajobraz 2026

8 typów LLM, możliwości lokalnych wdrożeń, chińskie open-source modele i kluczowe platformy chmurowe. Kompletny przegląd świata modeli językowych.

Świat modeli LLM ewoluuje w zawrotnym tempie. Ten artykuł wyjaśnia 8 typów LLM, omawia możliwości lokalnych wdrożeń, chińskie open-source modele i kilka kluczowych platform chmurowych.


8 Typów LLM w AI Agentach

Nie wszystkie LLM są takie same. Różne architektury są zoptymalizowane do różnych zadań:

1. GPT (Generative Pretrained Transformer)

Przeznaczenie: General-purpose text understanding and generation backbone.

  • Podstawowa architektura Transformer
  • Trening na ogromnych zbiorach tekstu
  • Zastosowanie: chatboty, asystenci, content generation

2. MoE (Mixture of Experts)

Przeznaczenie: Routes tokens to specialized “experts” to scale capacity efficiently.

  • Zamiast aktywowania wszystkich parametrów naraz, routing kieruje tokeny do wyspecjalizowanych “ekspertów”
  • Efekt: ogromna capacity przy niższych kosztach inference
  • Przykłady: Qwen3.5-397B (aktywuje tylko 17B na token!), Mixtral, Gemini

3. LRM (Large Reasoning Model)

Przeznaczenie: Tuned for multi-step reasoning and RAG/tool use.

  • Zoptymalizowane do rozumowania krok po kroku
  • Najlepsze do złożonych problemów matematycznych, logicznych
  • Przykłady: Claude Opus (extended thinking), GPT-o1/o3

4. VLM (Vision-Language Model)

Przeznaczenie: Processes images + text for multimodal perception.

  • Early fusion training na multimodal tokenach
  • Obsługuje obrazy, diagramy, tabele, kod ze screenshotów
  • Przykłady: Qwen3.5 (natywnie multimodalne), GPT-4V, Gemini Vision

5. SLM (Small Language Model)

Przeznaczenie: Compact, fast models for edge/on-device or low-latency tasks.

  • Działają na urządzeniach mobilnych lub z ograniczoną mocą
  • Przykłady: Qwen3.5-0.8B, Phi-3, Gemma-2B

6. LAM (Large Action Model)

Przeznaczenie: Plans and executes actions via tools/APIs/robots.

  • Specjalizowane do agentowego działania
  • Rozumieją narzędzia, API, sekwencje akcji
  • Przykłady: Claude (computer use), modele agencyjne

7. HLM (Hierarchical Language Model)

Przeznaczenie: Layered coordination for complex workflows.

  • Hierarchiczna koordynacja (user/item/task submodels)
  • Dla złożonych multi-step workflows

8. LCM (Large Concept Model)

Przeznaczenie: Maps words to higher-level concepts for abstraction.

  • Rozumienie semantyczne wyższego poziomu
  • Abstrahuje od słów do konceptów

Jak Działają LLM: Wizualizacja

Najlepszym sposobem zrozumienia jak działają LLM są animacje 3Blue1Brown (Grant Sanderson) z serii “Deep Learning”:

“Transformers, the tech behind LLMs | Deep Learning Chapter 5”

Kluczowe koncepty do wizualizacji:

  • Mechanizm attention w wysokich wymiarach
  • Token embeddings jako wektory w przestrzeni
  • Jak context window wpływa na generację

“Visualizing high-dimensional vector spaces and attention mechanisms is the only way to truly bridge the gap between abstract math and conceptual intuition.”

Kanał YouTube: 3Blue1Brown


Qwen3.5: Rodzina Modeli Alibaba

Alibaba wypuściło rodzinę 9 modeli w 16 dni - wszystkie natywnie multimodalne, wszystkie na Apache 2.0.

Rozmiary

  • 0.8B - dla urządzeń mobilnych
  • 1.8B - lekkie zastosowania
  • 4B - balance wydajność/rozmiar
  • 9B - lokalne stacje robocze
  • 35B-A3B (MoE) - nowy standard lokalnych wdrożeń
  • 72B - serwery
  • 397B-A17B (MoE) - flagowy model

Qwen3.5-9B: Lokalny Powerhouse

Specyfikacje:

  • 9B parametrów, dense model
  • 262,144 tokenów context length
  • ~7GB RAM do uruchomienia lokalnie
  • Natywna obsługa wizji (Early Fusion)
  • Obsługa narzędzi + reasoning
  • 201 języków i dialektów

Benchmark:

  • MMLU-Pro: 82.5
  • Na poziomie poprzedniej generacji Qwen3-30B (3x większego!)

Na RTX 4060 (8GB VRAM):

  • 16 tokenów/sekundę decode
  • 4.56 sekundy do pierwszego tokenu
  • $0 - bez API, bez drogiego sprzętu
# W LM Studio
qwen/qwen3.5-9b

Qwen3.5-35B-A3B: Model do Lokalnych Wdrożeń

35 miliardów parametrów, ale aktywuje tylko 3 miliardy na token dzięki architekturze MoE. Łączy:

  • Wydajność dużego modelu
  • Koszty małego modelu
  • Lokalną deployability

Flagowy: Qwen3.5-397B-A17B

  • 397B parametrów
  • Aktywuje tylko 17B na token (512 ekspertów, 10 routowanych + 1 współdzielony)
  • Jeden z najlepszych agentów open-source
  • Może działać na Mac Studio z odpowiednim RAM

Chiński Open-Source: Modele Klasy Opus

GLM-4.7-Flash-Claude-Opus-4.5-High-Reasoning-Distill

Dystylowany model łączący:

  • Architekturę GLM-4.7-Flash
  • High-reasoning capabilities z Claude 4.5 Opus
  • Format GGUF (kompatybilny z llama.cpp)
  • Trening na 250x specjalistycznych reasoning datasets

Kluczowe wartości:

  • Elite reasoning dystylowany do GGUF
  • Apache 2.0 (commercial use)
  • 98K+ pobrań (silna adopcja community)
  • Lokalne wdrożenie bez kosztów chmury
# Uruchomienie przez llama.cpp
./llama-server -m GLM-4.7-Flash-Claude-Opus-4.5-High-Reasoning-Distill.gguf

“The name alone costs 1k tokens” (żart społeczności - imię modelu jest bardzo długie)

Qwen3.5-122B-A10B-PRISM-PRO-GGUF

Wersja community z optymalizacją Pareto (smallest size, highest quality):

  • 122B parametrów (MoE)
  • Aktywuje ~10B na token
  • Dostępna na Hugging Face
  • Działa nawet na mobile

Gemini: 5-Godzinny Kurs Bezpłatny

Google Gemini to główny konkurent Claude i GPT. Dostępny pełny kurs (5 godzin) obejmujący:

  • Gemini API
  • Build & Automate workflows
  • Integracje

Kluczowa różnica Gemini vs Claude vs GPT:

  • Gemini: najlepsza integracja z ekosystemem Google (Workspace, Search, Cloud)
  • Claude: najlepsza dla złożonego kodowania i analizy dokumentów
  • GPT: najszerszy ekosystem plugin/tool

“Most teams building on Gemini right now aren’t using the public docs - they’re working off internal tooling that changes weekly.”


LM Studio: Desktop App dla Lokalnych Modeli

LM Studio to najwygodniejsza aplikacja desktopowa do uruchamiania lokalnych LLM.

Obsługiwane modele:

  • Qwen3.5, Gemma3, DeepSeek, gpt-oss, i dziesiątki innych
  • Wszystkie w formacie GGUF

Funkcje:

  • GUI do zarządzania modelami
  • API kompatybilne z OpenAI (endpoint /v1)
  • MCP client support
  • JavaScript i Python SDK
  • CLI (lms) do headless deployments

Nowe: LM Link - połączenie z remotnymi instancjami LM Studio (jak lokalne modele na zdalnym sprzęcie)


Trend: Local AI Movement

“The future is local” - coraz więcej modeli działa na konsumenckim sprzęcie:

Dlaczego lokalne modele?

  • Privacy: Kod nigdy nie opuszcza urządzenia
  • Koszt: $0.00 inference
  • Latency: Brak network roundtrips
  • Niezależność: Nie zależy od zewnętrznych serwisów

Minimalne wymagania dla modeli 7-9B:

  • RTX 4060 (8GB VRAM) - wystarczy!
  • M1/M2 Mac z 16GB RAM - wygodna opcja
  • Raspberry Pi 5 - dla bardzo małych modeli

Historia: Możliwość uruchamiania Claude Code z Ollama v0.14+ (lokalne modele jako drop-in replacement dla Anthropic API)


Ocena Modeli: Co Mierzyć

Popularne benchmarki:

BenchmarkCo mierzy
MMLU-ProWiedza akademicka
GPQA DiamondWiedza z dziedzin naukowych
HumanEvalKodowanie Python
MathUmiejętności matematyczne
FinanceBenchAnaliza finansowa
SWE-benchSoftware engineering

Ważna uwaga: Benchmark ≠ Production Performance. Zawsze testuj na własnych danych.


Podsumowanie: Który Model Kiedy?

Przypadek użyciaZalecany model
Produkcja, kompleksowe zadaniaClaude Opus 4.6 / GPT-5
Lokalne wdrożenie (7GB RAM)Qwen3.5-9B
Lokalne wdrożenie (wysoka jakość)Qwen3.5-35B-A3B
Serwery (open-source)Qwen3.5-72B lub 397B
Reasoning (lokalnie)GLM-4.7-Flash-Claude-Opus-4.5 distill
Integracja GoogleGemini
Multimodal (tekst+obraz)Qwen3.5, GPT-4V, Claude 3.5+
Edge/mobileQwen3.5-0.8B lub SLM
Wróć do wszystkich artykułów