Budowa Osobistego Asystenta AI: Eksperymenty z Google Gemini i Lekcje z Pola Bitwy

utworzone przez Kordian | paź 3, 2025 | AI | 0 komentarzy

Wstęp

Celem każdego poważnego wdrożenia AI w biznesie, a tak naprawdę czegokolwiek i gdziekolwiek jest rozwiązanie konkretnego problemu.

Oczywiście, TONA HYPE i FAME powoduje, że ludzie wdrażają AI czy to ma sens w danym przypadku czy nie ale to inna sprawa.

W moim przypadku, problemem była złożoność danych w projekcie pozazawodowym: pisanej przeze mnie powieści science fiction bo jak pisałem już, lubię dla relaksu pisać. Postanowiłem wykorzystać Gemini do stworzenia spersonalizowanego asystenta AI (tzw. „Gema”), który miał pełnić funkcję interaktywnej bazy wiedzy o świecie i fabule.

Zawsze jak pisałem dłuższe formy (a i nawet krótsze) to miałem taki problem, ze po kilku stornach już nie pamiętałem, czy ten typ miał brązowe włosy czy zielone oczy, a czy tamta pani to była porucznik czy może pułkownik;) Serio, mam świetną pamięć ale krótką.

Eksperyment dostarczył kluczowego wniosku: potencjał jest ogromny i zacząłem używać, ale technologia RAG, na której opierają się takie rozwiązania, posiada fundamentalne ograniczenia w precyzyjnym odnajdywaniu danych. Zrozumienie tych ograniczeń jest dziś bardzo ale to bardzo ważne, aby zrozumieć ograniczenia produktów.

To studium przypadku pokazuje dlaczego.

1. Hipoteza: AI jako Strażnik Kanonu Fabularnego

Zarządzanie informacją w rozbudowanym projekcie, niezależnie czy jest to dokumentacja techniczna, baza regulacji prawnych, czy – jak w tym przypadku – świat powieści, jest wyzwaniem. Moja hipoteza była prosta: model językowy z dostępem do dedykowanego pliku zawierającego scenariusz i opisy postaci oraz sam tekst pisanej powieści powinien być w stanie odpowiadać na precyzyjne pytania dotyczące faktów.

Cel: Stworzenie narzędzia, które na zapytanie „Jakie postacie brały udział w incydencie na stacji nad Tytanem?” zwraca dokładną listę, eliminując potrzebę ręcznego przeszukiwania stron.

2. Architektura Rozwiązania: Czym Jest i Jak Działa RAG?

Narzędziem, którego użyłem, było Google Gemini (tak w sumie to chyba mój ulubiony LLM – poza programowaniem, tu wygrywają kolejne Sonnety). System ten, podobnie jak Custom GPTs od OpenAI, opiera swoje działanie na architekturze zwanej RAG (Retrieval-Augmented Generation), czyli Generowaniu Wzbogaconym o Wyszukiwanie.

Aby zrozumieć, dlaczego mój asystent popełniał błędy, musimy zrozumieć, jak działa ten proces. To nie jest „magia”. To dwuetapowy, logiczny potok.

Wyobraźmy sobie RAG jako pracę analityka z ograniczonymi zasobami:

Etap 1: Wyszukiwanie (Retrieval). Kiedy zadajesz pytanie, system nie przekazuje go od razu do głównego modelu AI. Najpierw działa komponent zwany „Retrieverem”. Jego jedynym zadaniem jest przeszukanie podłączonej bazy wiedzy (w moim przypadku, pliku Google Docs) i znalezienie kilku fragmentów tekstu („chunks”), które wydają się najbardziej pasować do Twojego zapytania. Działa on jak bardzo szybki, ale niezbyt rozgarnięty asystent, który szuka słów kluczowych i podobieństwa semantycznego, a nie głębokiego zrozumienia.
Etap 2: Generowanie z Kontekstem (Augmented Generation). Gówny model językowy (Generator, np. Gemini) dostaje „na biurko” specjalnie przygotowaną paczkę: Twoje oryginalne pytanie ORAZ te kilka fragmentów tekstu, które znalazł Retriever. To jest kluczowe: model ma za zadanie odpowiedzieć na Twoje pytanie, używając TYLKO I WYŁĄCZNIE tych dostarczonych fragmentów jako źródła prawdy. Wszystko inne z jego ogromnej wiedzy ogólnej jest traktowane jako drugorzędne.

Więc odpowiadając na Twoje pytanie – RAG to jednocześnie metoda wyszukiwania i dostarczania danych w kontekście. System najpierw wyszukuje odpowiednie dane, a następnie dostarcza je jako jedyny dozwolony kontekst dla modelu, który generuje finalną odpowiedź. Ta architektura ma na celu ograniczenie „halucynacji” AI, ale, jak pokazał mój eksperyment, tworzy jednocześnie nowe, subtelne problemy.

3. Testy i Brutalna Weryfikacja: Gdzie System Działa, a Gdzie Spektakularnie Zawodzi

Wyniki testów były jednoznaczne i pokazały dychotomię w zdolnościach modelu. Szczerze, to pomimo znajomości ograniczeń byłem w szoku kilka razy, jak źle zadziałał.

Sukcesy: Model doskonale radził sobie z zadaniami wymagającymi syntezy i kreatywności w oparciu o ogólny kontekst. Przykładowo:

Generowanie propozycji rozwinięcia dialogów w stylu konkretnej postaci.
Research i ogólna burza mózgów, np. akcja działa się przy ONZ, i pytam gdzie tam najbliżej i najlepiej znaleźć lądowisko dla śmigłowców, i mi podał, spojrzałem na google maps, jest, perfekto miejsce dla akcji.
Analiza motywacji bohatera na podstawie opisu jego działań. I tu tez taka burza mózgów, czy po wcześniejszych zachowaniach bohatera to wydaje się ok itp tematy.

Porażka (Studium przypadku: Problem Identyfikacji Prezydenta): System zawiódł w najbardziej spektakularny sposób przy zadaniu, które wydawało się trywialne – precyzyjnym odpytaniu o konkretny fakt. Oto scenariusz testowy:

Kontekst: W mojej powieści, której akcja zaczyna się w 2035 roku, pojawia się postać prezydenta Polski. Zamiast tworzyć fikcyjną postać, użyłem prawdziwej osoby z obecnej sceny politycznej, podając jej imię oraz dwie unikalne cechy, które jednoznacznie ją identyfikują. Wszyscy byście go rozpoznali.
Test Kontrolny: Gdy wkleiłem ten sam fragment tekstu do standardowego okna czatu z modelem, bez dostępu do pliku, bezbłędnie zidentyfikował on opisywaną osobę. Model wykorzystał swoją szeroką, ogólną wiedzę.
Test Właściwy (z użyciem RAG): Gdy zadałem to samo pytanie mojemu wyspecjalizowanemu „Gemowi”, jego logika uległa załamaniu. Asystent najpierw błędnie zidentyfikował postać jako Mariana Banasia, a w kolejnej próbie jako… Andrzeja Dudę !

Diagnoza: To nie jest zwykła pomyłka. To fundamentalny błąd wynikający z architektury RAG. Model, w swoim ogólnym trybie, wie, że kadencja prezydencka uniemożliwia Andrzejowi Dudzie ponowne objęcie urzędu w 2035. Jednak w trybie RAG, jego rozumowanie zostało „uwięzione”. Retriever prawdopodobnie nie odnalazł precyzyjnego fragmentu z cechami identyfikującymi, dostarczając Generatorowi niekompletny lub mylący kontekst. W rezultacie model, zmuszony do odpowiedzi tylko na podstawie tych słabych danych, wygenerował absurdalny wniosek.

4. Wnioski Biznesowe: Od Powieści SF do Wdrożeń Korporacyjnych

Doświadczenie z tego projektu przekłada się bezpośrednio na świat biznesu. Firmy, które chcą wdrożyć asystentów AI do analizy wewnętrznej dokumentacji, bazy wiedzy o produktach czy procedur HR (np. w systemie TETA HR), muszą być świadome tego wyzwania.

Kluczowa lekcja brzmi: Nie wystarczy „nakarmić” AI folderem z plikami PDF. To prosta droga do frustracji i nierzetelnych wyników.

Efektywne wdrożenie wymaga pracy architektonicznej:

Przygotowania i strukturyzacji danych: Czyste, dobrze zorganizowane źródła to fundament. Czasem prosta baza danych jest lepsza niż tysiąc nieustrukturyzowanych dokumentów.
Zaawansowanych strategii RAG: Być może konieczne jest wdrożenie bardziej złożonych potoków, które lepiej radzą sobie z indeksowaniem i wyszukiwaniem faktów (np. przez tworzenie grafów wiedzy).
Projektowania zorientowanego na ograniczenia: Budowania systemów, które wykorzystują mocne strony LLM (synteza, kreatywność) i minimalizują ryzyko w obszarach, gdzie są one słabe (precyzja faktograficzna).

Era osobistych asystentów AI już nadeszła. Jednak krytyczną kompetencją dekady nie będzie ich używanie, ale umiejętność ich prawidłowego projektowania i wdrażania – z pełną świadomością granic ich możliwości.

{<Z Kordian Zadrożny

Budowa Osobistego Asystenta AI: Eksperymenty z Google Gemini i Lekcje z Pola Bitwy

Wstęp

1. Hipoteza: AI jako Strażnik Kanonu Fabularnego

2. Architektura Rozwiązania: Czym Jest i Jak Działa RAG?

3. Testy i Brutalna Weryfikacja: Gdzie System Działa, a Gdzie Spektakularnie Zawodzi

4. Wnioski Biznesowe: Od Powieści SF do Wdrożeń Korporacyjnych

0 komentarzy

Wyślij komentarz Anuluj pisanie odpowiedzi

Kategorie

Archiwa

Ostatnie wpisy

Najnowsze komentarze

Share This