RAG (Retrieval-Augmented Generation) to jeden z najważniejszych wzorców w inżynierii AI. Ten artykuł wyjaśnia dlaczego “naiwny RAG” zawodzi w produkcji, jakie są 7+ architektur RAG, jak działa pamięć AI, i jakie alternatywy istnieją.
Dlaczego Naiwny RAG Zawodzi w Produkcji
Klasyczny pipeline RAG:
Chunk → Embed → Retrieve → Generate
Działa to… dopóki nie trafia do produkcji z prawdziwymi użytkownikami, prawdziwymi danymi i prawdziwymi edge cases.
Cztery warstwy których brakuje większości systemów:
1. Retrieval ≠ Just Vector Search
Nie każde pytanie jest semantyczne:
- Graf DB dla pytań o relacje
- SQL dla liczb i danych strukturalnych
- Vector search dla znaczenia/intencji
Jeden silnik wyszukiwania nie może rozwiązać wszystkich trzech.
2. Intelligent Query Routing (Hidden Superpower)
Przed wyszukiwaniem zdecyduj:
- Semantic czy logical query?
- Single-hop czy multi-hop?
- Które źródło danych najpierw?
Ta warstwa decyzji eliminuje ~80% złych odpowiedzi.
3. Advanced Indexing (Chunking to za mało)
Naiwny chunking = niski recall. Prawdziwe systemy używają:
- Hierarchiczne reprezentacje (RAPTOR)
- Token-level retrieval (ColBERT)
- Multi-view indexing tych samych danych
4. Evaluation Loop (Non-negotiable)
Jeśli nie możesz zmierzyć, nie możesz naprawić:
- End-to-end RAG evaluation (Ragas)
- Component testing (DeepEval)
- Ciągłe monitorowanie, nie jednorazowe dema
“No eval = silent hallucinations.”
7 Architektur RAG: Wybierz Właściwą
RAG to nie jedna architektura - to spektrum od prostego do złożonego. Zacznij prosto, skaluj w miarę potrzeb.
1. Naive RAG (Vanilla)
Dokumenty chunked, embedded, stored w vector database. Query → retrieve similar chunks → pass to LLM.
Kiedy używać: Proof of concept, małe zbiory danych, homogeniczne dokumenty.
2. Retrieve-and-Rerank
Naive RAG + kluczowy krok: po initial retrieval, reranker model re-scores i reorders wyniki pod kątem aktualnej trafności.
Kluczowy insight: Semantic similarity ≠ actual relevance.
“Retrieve-and-rerank to 10 linii kodu na wierzch naiwnego RAG i naprawia 80% skarg na trafność przez jedną noc.”
3. Multimodal RAG
Obsługuje więcej niż tekst: obrazy, video, audio. Używa multimodal embedding models do enkodowania różnych typów danych w tym samym vector space.
Najlepsza adoptacja: e-commerce, opieka zdrowotna, edukacja.
4. Graph RAG
Zamiast traktować dokumenty jako izolowane chunki, buduje knowledge graph który wychwytuje relacje między encjami i konceptami.
Najlepsze dla: Pytań o relacje, powiązane fakty, kto-zna-kogo.
5. Hybrid RAG
Łączy Vector Search z Graph RAG. Semantyczne wyszukiwanie + strukturalne mapowanie relacji = system rozumiejący zarówno “co” (intencja) jak i “jak” (powiązania).
6. Agentic RAG (Router)
Zamiast jednej ścieżki retrieval, AI agent decyduje który silnik lub źródło wiedzy odpytać na podstawie pytania użytkownika.
7. Agentic RAG (Multi-Agent)
Najbardziej zaawansowane. Wiele wyspecjalizowanych agentów pracuje razem, każdy z dostępem do innych narzędzi i baz danych:
- Agent 1: wewnętrzne dokumenty
- Agent 2: zewnętrzne API
- Agent 3: web search
- Koordynacja odpowiedzi na złożone pytania
PageIndex: Wyszukiwanie Bez Wektorów
Nowe podejście które rozwiązuje fundamentalne ograniczenie RAG: similarity ≠ relevance.
Jak działa PageIndex: Buduje hierarchiczne drzewo indeksów z dokumentów (jak smart table of contents) i pozwala LLM rozumować przez nie.
Zalety:
- Brak vector DB
- Brak dzielenia na chunki
- Traceable retrieval - widzisz DLACZEGO wybrał sekcję
- Obsługuje PDF, markdown, a nawet surowe obrazy stron (bez OCR)
- 98.7% accuracy na FinanceBench
Inspiracja: AlphaGo. Używa tree search zamiast cosine similarity.
Krytyka: Część środowiska uważa to za “glorified LLM wrapper” - rzeczywista wartość to koncepcja tree traversal, którą można zaimplementować samemu.
Dlaczego RAG Pipeline “Sucks”: Głębsza Analiza
Fundamentalna wada embeddings-first architecture:
Problem z dwoma czarnymi skrzynkami: Masz LLM który ROZUMIE semantykę. Dlaczego dołączasz embedding model (mniejszy, głupszy neural network) który też “rozumie semantykę” żeby pre-processować informacje przed mądrzejszym modelem?
Embedding model podejmuje decyzje retrieval (co jest trafne, co nie) ZANIM LLM dostanie szansę ocenić.
Dlaczego głupszy model podejmuje ważniejsze decyzje?
RAG breaks progressive disclosure: RAG front-loads context. Wyszukujesz zanim rozumiesz czego potrzebujesz:
- User pyta pytanie
- Decydujesz co szukać z surowym inputem
- Decydujesz ile wyników zwrócić
- Stuffujesz do context window
Wszystkie te decyzje z similarity score i nadzieją.
ETL Hell: Zmień chunking strategy? Rerun wszystko. Swap embedding models? Rerun wszystko. Update source docs? Rerun wszystko.
Always-On Memory Agent (Google)
Google udostępniło open-source Always-On Memory Agent - AI memory która nigdy się nie wyłącza.
Architektura: 3 helpers działające w tle:
- File reader - czyta pliki: notatki, obrazy, audio, video
- Connection builder - co 30 minut łączy idee podczas gdy śpisz
- Query answerer - odpowiada na pytania używając wszystkiego czego się nauczył
Kluczowe cechy:
- Działa z Gemini 3.1 Flash-Lite (tani w eksploatacji)
- Drop file in folder → AI reads it in 5 seconds
- 100% Open Source
- Brak complicated setup, brak special databases
Jak działa metafora: Większość AI tools zapomina wszystko po zamknięciu. Ten ciągle się uczy i łączy fakty jak mózg robiący to w nocy podczas snu.
“Drop a file in a folder → the AI reads it in 5 seconds.”
AI Engineering Hub: Kompletne Zasoby Open-Source
Najobszerniejsza open-source biblioteka AI engineering jaka istnieje.
Zawartość:
- Agentic RAG pipelines od zera
- Multi-agent systems z CrewAI, AutoGen, LangGraph
- MCP server implementations (10+ real use cases)
- Voice agents z real-time streaming
- Fine-tuning DeepSeek z Unsloth na consumer GPU
- NotebookLM clone z RAG + citations + podcast generation
- Multi-agent deep researcher (Windows + Linux)
- Context engineering workflows od beginner do production
Trzy poziomy trudności:
- 22 beginner projects
- 48 intermediate
- 23 advanced
Repo: github.com/patchy631/ai-engineering-hub
“93 projects across 3 difficulty levels in one repo. This is basically a free bootcamp.”
Pamięć Claude: Struktury i Wzorce
Claude (stan na marzec 2026) obsługuje różne wzorce zarządzania pamięcią:
Krótkoterminowa (context window):
- Wszystko co jest w aktywnej sesji
- Ograniczone do 200K tokenów (Opus)
- “Context rot” po przekroczeniu 50-70%
Długoterminowa (zewnętrzna):
- CLAUDE.md - projekt memory
- Osobne pliki notatek per projekt
- Vector databases z embeddings
- Knowledge graphs
Pamięć dla agentów:
- tasks/lessons.md - co agent się nauczył
- tasks/todo.md - plan i progress
- notes/ directory per projekt/task
Najważniejsza zasada:
After ANY correction from the user:
update 'tasks/lessons.md' with the pattern.
Write rules for yourself that prevent the same mistake.
Observability: Klucz do Produkcyjnego RAG
Największy ROI jump nie jest z fancy architectures - jest z observability.
Co musisz widzieć:
- Jakie źródła zostały odpytane
- Co zostało odfiltrowane i dlaczego
- Dlaczego konkretny chunk został wybrany
- Confidence scores dla odpowiedzi
Narzędzia:
- Ragas - end-to-end RAG evaluation
- DeepEval - component testing
- LangSmith - tracing i monitoring
- Custom logging dla decision chains
“Once you go graph or agentic routing, the main thing is observability.”
Podsumowanie: Droga od Demo do Produkcji
| Etap | Architektura | Kiedy |
|---|---|---|
| Proof of concept | Naive RAG | Pierwsze 2 dni |
| MVP | Retrieve-and-Rerank | Tydzień 1 |
| Production | Advanced Indexing + Query Routing | Miesiąc 1 |
| Scale | Agentic RAG | Miesiąc 3+ |
Złota zasada: Start simple, add complexity only when you hit real limits.