Co to jest model dużego języka?

September 16, 2023
WInteligentne I Połączone życie Sztuczna Inteligencja I Nauka

click fraud protection

Do uczenia używany jest duży model językowy (LLM). sztuczna inteligencja (AI) rozumieć i generować tekst tak jak człowiek. Dowiedz się więcej o dużych modelach językowych, ich popularnych zastosowaniach oraz o tym, czym LLM różnią się od innych modeli uczenia się komputerowego.

Wyjaśnienie modeli dużego języka

Duże modele językowe są głęboka nauka algorytmy przeznaczone do uczenia programów AI. LLM to rodzaj modelu transformatora lub sieć neuronowa która szuka wzorców w sekwencyjnych zestawach danych (takich jak słowa w zdaniu) w celu ustalenia kontekstu. Po wyświetleniu monitu tekstowego algorytm generuje odpowiednią, przypominającą ludzką odpowiedź.

Najpopularniejszymi zastosowaniami LLM są chatboty AI. Przykłady dużych modeli językowych obejmują GPT-4, który obsługuje popularne CzatGPTi PaLM2, algorytm Google Bard. Naprawdę zasługują na swoją nazwę: programy LLM są zazwyczaj tak ogromne, że nie można ich uruchomić na jednym komputerze, dlatego działają jako usługa internetowa, a nie samodzielny program.

Zbliżenie ekranu telefonu z różnymi programami chatbota — Olivier Morin/AFP | Getty'ego

Jak działają LLM?

Modele transformatorów składają się z warstw, które można układać w stosy, tworząc coraz bardziej złożone algorytmy. W szczególności LLM opierają się na dwóch kluczowych cechach modeli transformatorów: kodowaniu pozycyjnym i samouważności.

Kodowanie pozycyjne umożliwia modelowi analizę tekstu w sposób niesekwencyjny w celu identyfikacji wzorców. Samouważność przypisuje każdemu wejściu wagę, która określa jego znaczenie w porównaniu z resztą danych. W ten sposób model może wybrać najważniejsze części z dużej ilości tekstu.

Poprzez rozległe uczenie się bez nadzoru, LLM mogą wiarygodnie przewidzieć następne słowo w zdaniu w oparciu o zasady gramatyki języków ludzkich. Reguły gramatyczne nie są zaprogramowane w dużym modelu językowym; algorytm wnioskuje o gramatyce podczas czytania tekstu.

Zastosowania LLM

Chwila wirtualni asystenci podobnie jak Alexa i Siri mogą odpowiedzieć na listę z góry ustalonych poleceń za pomocą wstępnie zaprogramowanych odpowiedzi, LLM analizują znaczne ilości tekstu (całe akapity lub nawet dłuższe) i zapewniają unikalność, spójność i kreatywność odpowiedzi.

Za pomocą LLM programy sztucznej inteligencji mogą wykonywać następujące zadania:

Generowanie treści: Pisanie opowiadań, wierszy, scenariuszy i materiałów marketingowych
Podsumowanie: Tworzenie notatek lub transkrypcji ze spotkań
Tłumaczenie: Tłumaczenia ustne między językami ludzkimi i językami komputerowymi
Klasyfikacja: Generowanie list i analizowanie tekstu pod kątem tonu (pozytywny, negatywny lub neutralny)

Chociaż chatboty AI są szczególnie pomocne w obsłudze klienta, LLM mają obiecujące zastosowania w kilku dziedzinach, od inżynierii po opiekę zdrowotną. Na przykład LLM mogą analizować artykuły badawcze, dokumentację medyczną i inne dane w celu opracowania nowych metod leczenia.

LLM Plusy i minusy

Ponieważ algorytmy LLM uczą się języka, identyfikując relacje między słowami, nie ograniczają się do jednego ludzkiego języka. Podobnie LLM nie muszą być szkoleni w zakresie żadnych konkretnych umiejętności. Dlatego LLM mają dużą elastyczność w rozumieniu niuansów ludzkiego języka.

Z drugiej strony LLM wymagają wielu danych testowych, zanim będą przydatne. Na przykład GPT-4 był szkolony przy użyciu książek, artykułów i innych tekstów dostępnych w Internecie, zanim został udostępniony publicznie.

Szkolenie LLM wymaga dużo czasu i zasobów obliczeniowych, co skutkuje wysokimi rachunkami za energię. Mimo że proces uczenia się odbywa się bez nadzoru, do rozwijania i utrzymywania LLM nadal potrzebna jest specjalistyczna wiedza. Duża ilość dane niezbędne do szkolenia LLM również stanowią wyzwanie, szczególnie w przypadku wrażliwych informacji, takich jak informacje zdrowotne lub finansowe dane.

Roboty już tu są: 10 sposobów, w jakie już korzystasz ze sztucznej inteligencji