Stanford CS230 | Autumn 2025 | Lecture 7: Agents, Prompts, and RAG.
Którego modelu LLM używasz i jak możesz zmaksymalizować jego wydajność? To pytanie nurtuje dziś każdego, kto styka się z dynamicznie rozwijającym się światem sztucznej inteligencji. Współczesne modele językowe (Large Language Models) rewolucjonizują sposób, w jaki pracujemy, uczymy się i komunikujemy, ale ich prawdziwy potencjał często pozostaje niewykorzystany. Czy wiesz, jak sprawić, by Twój LLM przestał być jedynie narzędziem, a stał się autonomicznym, inteligentnym partnerem?
Ten artykuł zabierze Cię w podróż po zaawansowanych technikach optymalizacji aplikacji LLM, koncentrując się na sztuce inżynierii podpowiedzi, potężnej technice RAG (Retrieval Augmented Generation) oraz rewolucyjnych agentowych systemach AI. Zrozumiesz, jak budować rozwiązania, które nie tylko odpowiadają na Twoje zapytania, ale inteligentnie je przetwarzać, wyszukiwać informacje i automatyzować złożone zadania.
Przygotuj się na zgłębianie:
- Wyzwań i możliwości w udoskonalaniu LLM,
- Metod optymalizacji LLM: Inżynieria Podpowiedzi i RAG,
- Agentowych systemów AI i precyzyjnych przepływów pracy,
- Ewaluacji i wyzwań w agentowej AI,
- Oraz pasjonującej przyszłości AI i systemów wielu agentów.
Jeśli chcesz, aby Twoje aplikacje LLM działały inteligentniej, wydajniej i bardziej autonomicznie, ten artykuł jest dla Ciebie. Zapraszamy do lektury!
Table of Contents
- Wyzwania i optymalizacja Dużych Modeli Językowych (LLM)
- Inżynieria Podpowiedzi: Skuteczne Formułowanie Zapytań do LLM
- Poza Podpowiedziami: Dostrajanie Modeli i Rozszerzona Generacja z Pobieraniem (RAG)
- Systemy Agentowe AI: Od pojedynczych zadań do autonomicznych przepływów pracy
- Ocena Agentowych Systemów AI i Przyszłość Sztucznej Inteligencji
Wyzwania i optymalizacja Dużych Modeli Językowych (LLM)
W dzisiejszym świecie rozwijających się technologii Głębokie Uczenie (LLM) stało się fundamentem wielu innowacji, ale by w pełni wykorzystać ich potencjał, musimy wyjść poza ich podstawowe zastosowania i skupić się na systemach agentowych. Kurs CS230 stawia sobie za cel przekazać techniki, które umożliwiają maksymalizację wydajności bazowych modeli LLM, wyposażając studentów w narzędzia niezbędne do budowania złożonych aplikacji.
Głównym wyzwaniem jest to, że nawet najbardziej zaawansowane pre-trenowane modele, takie jak GPT-3.5 Turbo czy GPT-4o, mają swoje ograniczenia. Brakuje im specjalistycznej wiedzy domenowej, co jest problemem "gdy używasz waniliowego, wstępnie wytrenowanego modelu." Wyobraź sobie system AI do analizy upraw – bazowy model nie rozpozna specyficznych chorób roślin.
Innym problemem jest aktualność informacji. Modele LLM nie są na bieżąco z najnowszymi wydarzeniami czy slangiem, takim jak "Kovfefe" czy "Gen Z words like re or mid". To prowadzi do błędów, kiedy systemy rekomendacji gubią się w nowej, szybko zmieniającej się rzeczywistości.
Modele te często posiadają obszerną wiedzę ogólną, ale mogą "zawodzić lub nie działać odpowiednio w wąskim, dobrze zdefiniowanym zadaniu", wymagającym wysokiej precyzji, niskiego opóźnienia i dużej wierności, jak w aplikacjach korporacyjnych. Co więcej, "model jest dużo cięższy, dużo wolniejszy", a większość jego szerokiego zakresu wiedzy może być zbędna dla konkretnych zastosowań.
Kontrola nad LLM jest również trudna. Pamiętacie bota Microsoftu z 2016 roku, który stał się "rasistowskim dupkiem" po interakcji z użytkownikami? To pokazuje, jak trudno jest kierować zachowaniem LLMów, nawet dla gigantów technologicznych.
Aby sprostać tym wyzwaniom, inżynierowie AI opracowali szereg strategii optymalizacyjnych. Są to:
- Podpowiedzi (Prompting): Sztuka tworzenia efektywnych instrukcji dla LLM. Nierzadko "zachowywanie się jak xyz" jest bardzo popularnym szablonem monitu. Przykłady obejmują instrukcje takie jak "Zachowuj się jak najlepszy na świecie w tym, wytłumacz".
- Dostrajanie (Finetuning): Mimo że niektórzy unikają tego procesu, jak wspomniano w wykładzie, polega on na dostosowaniu modelu do konkretnego zadania lub zestawu danych, co może znacząco poprawić wydajność w specjalistycznych obszarach.
- Generowanie Rozszerzone o Pobieranie (RAG - Retrieval Augmented Generation): Strategia, w której LLM może pobierać informacje z zewnętrznych, aktualnych źródeł, zanim wygeneruje odpowiedź, co zwiększa jego aktualność i dokładność. "RAG to mechanizm, który osadza dokumenty, które LLM może pobrać, a następnie dodać jako kontekst do swojego początkowego monitu i odpowiedzieć na pytanie."
- Systemy agentowe: Te zaawansowane aplikacje pozwalają LLM na wykonywanie złożonych zadań, wymagając planowania, zapamiętywania i adaptacji, co tworzy "przepływy pracy agentowej sztucznej inteligencji".
- Systemy multiagentowe: Idąc o krok dalej, obejmujące interakcję wielu agentów AI, współpracujących w celu rozwiązania jeszcze bardziej skomplikowanych problemów.
Te techniki przekraczają "granicę JAG", gdzie AI może znacząco poprawić ludzką wydajność, szybkość i jakość, wskazując drogę do przyszłości, w której LLM stają się inteligentniejszymi i bardziej niezawodnymi partnerami w wielu dziedzinach, od medycyny po finanse.
Inżynieria Podpowiedzi: Skuteczne Formułowanie Zapytań do LLM
Inżynieria podpowiedzi (prompt engineering) to kluczowa umiejętność maksymalizująca wydajność dużych modeli językowych (LLM). Badania przeprowadzone przez Harvard Business School i Wharton wykazały, że odpowiednie promptowanie może zwiększyć wydajność pracowników nawet o 42%, co dowodzi, że samo posiadanie dostępu do AI nie wystarczy; liczy się umiejętność efektywnej komunikacji z nią. Jak zaznacza wykładowca, "to śmieszne, ale to działa, żeby powiedzieć 'zachowuj się jak xyz', to bardzo popularny szablon monitu".
Podstawowe zasady projektowania podpowiedzi koncentrują się na precyzowaniu kontekstu, formatu i odbiorcy oczekiwanej odpowiedzi. Zamiast ogólnego „Podsumuj ten dokument”, znacznie skuteczniejsze jest „Podsumuj ten 10-stronicowy artykuł naukowy na temat energii odnawialnej w pięciu punktach, skupiając się na kluczowych odkryciach i implikacjach dla decydentów”. Taka podpowiedź jasno określa cel, format (pięć punktów) i publiczność (decydenci). Jak zauważono, "[AI] znacząco poprawia wydajność, szybkość, jakość konsultanta" w przypadku, gdy zadanie jest dobrze zdefiniowane.
Dla dalszej poprawy jakości generowanych treści, stosuje się zaawansowane techniki. Jedną z nich jest gra ról ("act like XYZ"). Polega ona na nadaniu modelowi konkretnej perspektywy, np. "zachowuj się jak ekspert ds. energii odnawialnej przemawiający na konferencji w Davos". Ta technika, będąca "bardzo popularnym szablonem monitu", pomaga LLM dostosować styl i zakres informacji. Inną, potężną techniką jest refleksja, w której model jest proszony o krytykę własnej odpowiedzi, a następnie o jej poprawę.
Najbardziej rewolucyjna jest metoda łańcucha myśli (Chain of Thought). Polega ona na instruowaniu modelu, aby podchodził do zadania krok po kroku, nie pomijając żadnego etapu. "To jest popularna metoda, która została w badaniach pokazana jako poprawiająca" działanie, podkreślono. Przykładowo, zamiast jednorazowego polecenia, model może najpierw zidentyfikować trzy najważniejsze wnioski, następnie wyjaśnić ich wpływ na politykę, a dopiero potem stworzyć pięciopunktowe podsumowanie. Ta struktura zwiększa przejrzystość myślenia modelu i znacząco poprawia jakość i niezawodność odpowiedzi, umożliwiając łatwiejsze debugowanie każdego etapu procesu. Łańcuch myśli jest szczególnie popularny w startupach AI, które starają się kontrolować swoje elementy.
Podsumowując, skuteczna inżynieria podpowiedzi to nie tylko technika, ale wręcz sztuka precyzowania intencji i strukturyzowania zadań dla LLM. Od podstawowych zasad kontekstu po zaawansowane strategie gry ról i łańcucha myśli, każda z tych metod przyczynia się do odblokowania pełnego potencjału sztucznej inteligencji w środowisku pracy.
Poza Podpowiedziami: Dostrajanie Modeli i Rozszerzona Generacja z Pobieraniem (RAG)
Przechodząc od podstawowych podpowiedzi, zanurzamy się w bardziej zaawansowane techniki, takie jak dostrajanie modeli (fine-tuning) i rozszerzona generacja z pobieraniem (RAG), które rewolucjonizują sposób, w jaki wchodzimy w interakcje z dużymi modelami językowymi (LLM). Chociaż same podpowiedzi są potężne, w pewnym momencie stajemy przed wyzwaniem, jak jeszcze bardziej zmaksymalizować wydajność danego modelu bazowego.
Dostrajanie modeli, choć kuszące ze względu na możliwość specjalizacji, wiąże się z szeregiem problemów. Profesor podkreśla, że stara się go „unikać tak bardzo, jak to możliwe”. Wymaga to ogromnych zbiorów danych specyficznych dla danej dziedziny, co jest kosztowne i pracochłonne. Istnieje również ryzyko nadmiernego dopasowania, gdzie model staje się zbyt wyspecjalizowany i traci zdolność do uogólniania. Ponadto, każde dostosowanie lub aktualizacja wymaga ponownego procesu dostrajania, co zwiększa koszty i spowalnia rozwój. Model staje się często „dużo cięższy, dużo wolniejszy”, co obciąża zasoby, gdy wykorzystujemy tylko ułamek jego możliwości. Mimo to, dostrajanie staje się coraz bardziej zwinne, a nowe techniki, takie jak LoRA (Low-Rank Adaptation), obniżają bariery wejścia.
W kontraście do dostrajania, Rozszerzona Generacja z Pobieraniem (RAG) oferuje bardziej elastyczne podejście do ulepszania odpowiedzi LLM. RAG integruje LLM z zewnętrzną bazą wiedzy, aby dostarczyć mu aktualnych i specyficznych dla domeny informacji, których brakuje w jego podstawowym treningu. Wyobraźmy sobie, że LLM to student, który zna encyklopedię na pamięć. RAG daje mu dostęp do biblioteki uniwersyteckiej, gdzie może szybko wyszukać szczegółowe informacje potrzebne do konkretnego zadania, zanim odpowie. Jak mówi profesor, to „mechanizm, jeśli chcesz, który osadza dokumenty, które LLM może pobrać, a następnie dodać jako kontekst do swojej początkowej podpowiedzi i odpowiedzieć na pytanie.”
Ewolucja RAG jest dynamiczna. Od podstawowych mechanizmów pobierania, gdzie LLM po prostu wyszukuje fragmenty tekstu dopasowane do zapytania, przechodzi do bardziej zaawansowanych technik. Należą do nich na przykład generowanie „fałszywych” dokumentów (hipotetycznych, syntetycznych), które są optymalne dla dopasowania wyszukiwania, co poprawia jakość wyników. RAG jest szczególnie przydatne w zastosowaniach takich jak zarządzanie wiedzą, gdzie modele muszą odpowiadać na pytania na podstawie bardzo dużej, specyficznej dla firmy dokumentacji. Pozwala to LLM na „czytanie tysięcy dokumentów i odpowiadać, jakie były nasze wyniki Q4 w sprzedaży” w ułamku sekund.
Niezależnie od wybranej metody, kluczowe jest testowanie i ewaluacja. Aby ocenić skuteczność podpowiedzi i systemów RAG, stosuje się różne metody. Początkowo dominowały ręczne oceny, gdzie ludzie analizowali odpowiedzi LLM. Jednak wraz ze wzrostem złożoności i skali, pojawiła się potrz*eba zautomatyzowanych rozwiązań. Obecnie coraz częściej wykorzystuje się LLM Judges – inne, potężniejsze modele językowe, które pełnią rolę sędziów, oceniając jakość i trafność odpowiedzi generowanych przez system. To podejście jest niezbędne do identyfikacji "granic JAG", czyli zadań, w których AI może albo znacząco poprawić wydajność człowieka, albo wręcz ją pogorszyć.
Systemy Agentowe AI: Od pojedynczych zadań do autonomicznych przepływów pracy
Przechodząc od prostych podpowiedzi, zanurzamy się w świat agentowych przepływów pracy AI, które całkowicie zmieniają sposób interakcji systemów sztucznej inteligencji z otoczeniem. Andrew Ang, uznawany za prekursora tego trendu, trafnie określił je jako "agentic AI workflows", aby odróżnić je od prostych promptów. Zamiast ograniczać się do jednorazowych pytań i odpowiedzi, agentowe przepływy pracy obejmują złożone, wieloetapowe procesy w celu realizacji zadania.
Wyobraźmy sobie agenta AI wspierającego zwroty, który znacznie wykracza poza zwykłą odpowiedź RAG (Retrieval Augmented Generation) w stylu: „Zwroty są dostępne w ciągu 30 dni od zakupu”. Taki agent może:
- Używać RAG do pobierania polityki zwrotów.
- Prosić użytkownika o podanie numeru zamówienia.
- Sprawdzać szczegóły zamówienia za pomocą API.
- Potwierdzać kwalifikację zwrotu i informować o terminie przetworzenia.
To jest prawdziwa autonomia w działaniu, przekładająca się na bardziej przemyślane i kompleksowe interakcje z użytkownikiem.
Ta zmiana wprowadza nowy paradygmat w inżynierii oprogramowania. Tradycyjnie, oprogramowanie było deterministyczne, oparte na ustrukturyzowanych danych i przewidywalnych wynikach. Teraz, wraz z nadejściem agentowych systemów AI, wkraczamy w erę "rozmytego" (fuzzy) oprogramowania. Jak zauważono w wykładzie, inżynierowie muszą teraz balansować między determinizmem a elastycznością, aby sprostać dynamicznej interpretacji tekstu, obrazów i innych danych swobodnych. To wyzwanie wymaga "bardzo specjalistycznego sposobu myślenia w inżynierii", aby zarządzać nieprzewidywalnością i potencjalnymi problemami, które pojawiają się, gdy użytkownicy mogą wchodzić w interakcje z systemem na nieskończenie wiele sposobów.
Kolejnym kluczowym aspektem systemów agentowych jest pamięć. Agenci potrzebują zarówno pamięci krótkotrwałej, aby śledzić bieżącą rozmowę lub zadanie, jak i pamięci długotrwałej, aby gromadzić wiedzę i doświadczenia z czasem. Efektywne zarządzanie tymi typami pamięci jest kluczowe dla ich zdolności do uczenia się i adaptacji. Niektóre zadania znajdują się w "granicy JAG", gdzie AI znacząco poprawia wydajność ludzką, podczas gdy inne wykraczają poza nią, pogarszając ją. Ta obserwacja podkreśla, dlaczego odpowiednie zarządzanie pamięcią i kontekstem jest tak ważne, aby agenci działali efektywnie i wspierali, a nie utrudniali, ludzkie działanie.
Ocena Agentowych Systemów AI i Przyszłość Sztucznej Inteligencji
Ocena i przyszłość agentowych systemów AI to kluczowy temat, zwłaszcza gdy technologia rozwija się w zawrotnym tempie, a tradycyjne metryki ewaluacji stają się niewystarczające. W miarę jak przechodzimy od prostych modeli językowych (LLM) do złożonych systemów agentowych, metody weryfikacji ich działania muszą ewoluować.
Ewaluacja agentów AI wykracza poza standardowe testy, obejmując zarówno testy end-to-end użytkowników, jak i ocenę komponentową poszczególnych modułów. Nowatorskie podejście to wykorzystanie "LLM Judges", czyli innych modeli językowych, które oceniają jakość i trafność odpowiedzi agenta. To pozwala na bardziej dynamiczną i kontekstową ewaluację, symulując ludzką perspektywę, ale na znacznie większą skalę.
Wyzwania i korzyści płynące z systemów wieloagentowych są znaczące. Chociaż ich architektura jest skomplikowana, otwierają one drogę do paralelizacji zadań i ponownego wykorzystywania agentów, co prowadzi do specjalizacji i optymalizacji procesów. Przykładem jest chatbot, który najpierw używa RAG do wyszukania polityki zwrotów, a następnie prosi o numer zamówienia, angażując w to wieloetapowy proces.
Zastanawiając się nad przyszłością AI, pojawia się pytanie o "spłaszczanie krzywej postępu LLM" – czy osiągamy już pułap możliwości? Obserwujemy również, jak architektura AI czerpie inspirację z ludzkiego mózgu, rozważając na przykład, dlaczego w ludzkim mózgu nie ma propagacji wstecznej. Ekspert zastanawia się: "Zmienia światło na zjawisko, które nazywają 'granicą JAG'. Co oznacza, że niektóre zadania wykonywane przez konsultantów wykraczają poza granicę JAG. Oznacza to, że AI nie jest wystarczająco dobra. Nie poprawia ludzkiej wydajności. W rzeczywistości ją pogarsza. I niektóre zadania mieszczą się w tej granicy, co oznacza, że AI znacząco poprawia wydajność, szybkość, jakość konsultanta."
W erze gwałtownych zmian, gdzie "moc obliczeniowa podwaja się każdego roku", rosnąca prędkość zmian w dziedzinie AI staje się normą. Metody, które dziś wydają się przełomowe, za kilka lat mogą być przestarzałe. Kluczem jest adaptacja i ciągłe poszukiwanie nowych rozwiązań, aby nadążyć za ewolucją tej dynamicznej dyscypliny.
Conclusion
W tej lekcji poznaliśmy arsenał potężnych technik, od precyzyjnego generowania poleceń „few-shot”, przez wzbogacanie danych (RAG), aż po zaawansowane systemy agentowe i multiagentowe. Klucz do odblokowania pełnego potencjału Dużych Modeli Językowych leży w strategicznym wyborze i łączeniu tych narzędzi. Pamiętajmy o "łańcuchu myśli" dla złożonych zadań i o „pruning/kwantyzacji” dla precyzyjnych aplikacji. Debugowanie staje się prostsze dzięki rozbijaniu procesów na etapy, a nieustanne eksperymentowanie to podstawa.
Przyszłość AI dynamicznie się rozwija, a Twoje zaangażowanie jest kluczowe. Bądź na bieżąco z najnowszymi trendami, eksploruj nowe architektury inspirowane mózgiem i aktywnie włączaj się w społeczność. Dziel się wiedzą, ucz się od innych i nie bój się testować granic możliwości AI.
Biorąc pod uwagę, że niewłaściwe wdrożenie AI może czasem obniżyć ludzką wydajność, gdzie rysujesz granicę dla jej implementacji w kluczowych zadaniach w swojej pracy lub życiu?