Wstępnie przeszkolony transformator generatywny

Wstępnie przeszkolony transformator generatywny (GPT)[1] (ang. generative pre-trained transformer)[2] – rodzaj dużego modelu językowego, czyli modelu uczenia maszynowego, który został wytrenowany na dużych zbiorach danych i potrafi generować tekst na podstawie podanego mu kontekstu. GPT jest jednym z największych i najbardziej zaawansowanych modeli językowych. Pierwszy model GPT został przedstawiony przez amerykańską spółkę OpenAI w 2018 roku[3]. Do 2024 roku OpenAI przedstawiła cztery wersje GPT. Modele GPT są również rozwijane przez inne firmy, takie jak: EleutherAI[4], Cerebras[5].
W uproszczeniu można powiedzieć, że GPT jest programem komputerowym, który przetwarza ogromne ilości tekstu, aby nauczyć się reguł języka. Następnie, gdy dostanie fragment tekstu, potrafi wygenerować sensowne i poprawne gramatycznie kontynuacje zdania, a gdy dostanie zapytanie, potrafi wygenerować sensowne odpowiedzi[6]. Model GPT był trenowany na różnorodnych źródłach danych, w tym na artykułach z Wikipedii, artykułach prasowych i różnorodnych tekstach z internetu[6].
Tym, co odróżnia GPT od innych rozwiązań typu 'dużego modelu językowego' (LLM), jest fakt, że model może być trenowany metodą uczenia nienadzorowanego. Dzieje się tak w pierwszej fazie treningu. W kolejnej fazie model jest trenowany metodą nadzorowaną, ale skupioną na konkretnych zastosowaniach[3].
GPT jest modelem opartym na sieciach neuronowych – transformatorach, które zostały specjalnie zaprojektowane do przetwarzania sekwencji danych, takich jak tekst[3]. Sieci neuronowe są matematycznymi modelami, które próbują naśladować sposób działania ludzkiego mózgu, dzięki czemu potrafią uczyć się na podstawie przykładów i przetwarzać duże ilości danych. W przypadku GPT, sieci neuronowe są wykorzystywane do trenowania modelu językowego na dużym zbiorze danych tekstowych.
Jednym z najbardziej znanych zastosowań modelu GPT jest aplikacja ChatGPT udostępniona przez OpenAI.
Historia
[edytuj | edytuj kod]Wczesne prace
[edytuj | edytuj kod]Generatywne wstępne przeszkolenie (ang. Generative pretraining, GP) jest pojęciem znanym wcześniej w zagadnieniach uczenia maszynowego[7][8]. Był oryginalnie używany w uczeniu półnadzorowanym, gdzie model jest najpierw uczony na nieoznaczonych zbiorach danych aby generować etykiety w zbiorze danych, dla którego potem jest przeprowadzanie uczenie się klasyfikatora[9].
W latach dwa tysiące dziesiątych problem tłumaczenia maszynowego był adresowany z użyciem sieci RNN wraz z mechanizmem uwagi[10]. Ta koncepcja została później ulepszona w architekturze transformatora[11]. To zapoczątkowało tworzenie dużych modeli językowych jak BERT w 2018, który posiada wstępnie wytrenowany transformer ale nie był stworzony jako model generatywny (BERT składał się tylko z koderów)[12].
Rozwój modeli GPT
[edytuj | edytuj kod]GPT-1, pierwszy model z serii, został wydany w 2018 roku[13]. GPT-1 jako pierwszy model w serii GPT zastosował innowacyjne podejście do uczenia nienadzorowanego i uczenia transferowego. Umożliwiło to generowanie tekstów o większej spójności i zrozumiałości w porównaniu do wielu wcześniejszych modeli przetwarzania języka naturalnego, co stanowiło istotny krok w rozwoju sztucznej inteligencji opartej na przetwarzaniu języka naturalnego.
GPT-2 zostało wydane w lutym 2019 roku, a GPT-3 w czerwcu 2020 roku.
Kolejne wersje wprowadzały fundamentalne zmiany w architekturze i usprawnienia względem GPT-1, takie jak: zwiększenie liczby parametrów , co pozwoliło na lepsze modelowanie języka, oraz wytrenowanie na znacznie większym i bardziej zróżnicowanym zbiorze danych, dzięki czemu modele były w stanie lepiej generalizować i radzić sobie z różnorodnymi zadaniami związanymi z przetwarzaniem języka naturalnego.
Postęp w rozwoju modelu GPT-3 pozwolił na przełom w postaci nabycia przez model umiejętności wykonywania prostych zadań arytmetycznych, w tym tworzenia fragmentów kodu i wykonywania zadań wymagających pewnego poziomu inteligencji[14]. GPT-4, najnowsza generacja modeli GPT, została udostępniona 14 marca 2023 roku. Nowszy model charakteryzuje się o 82% niższym prawdopodobieństwem udzielenia odpowiedzi na żądania użytkowników dotyczących treści niedozwolonych oraz o 40% większym prawdopodobieństwem przedstawienia odpowiedzi zgodnych z faktami w porównaniu z modelem GPT-3.5[15].
Modele fundamentalne
[edytuj | edytuj kod]Postęp i złożoność kolejnych wersji modelu fundamentalnego GPT obrazuje tabela:
Model | Architektura | Parametry | Warstwy dekodera | Rozmiar kontekstu tokenów | Warstwa ukryta | Rozmiar partii | Koszt treningu |
---|---|---|---|---|---|---|---|
GPT-1 | 12-warstw, 12-częściowy dekoder transformatora (bez koderów), wraz z funkcją softmax | 117 milionów | 12 | 512 | 768 | 64 | 30 dni on 8 kartach P600, 1 petaFLOPS-dni[16] |
GPT-2 | GPT-1, ze zmodyfikowaną normalizacją | 1,5 miliarda | 48 | 1024 | 1600 | 512 | "dziesiątki petaFLOPS-dni"[17], lub FLOPS[18] |
GPT-3 | GPT-2, z usprawnieniami zwiększającymi skalowanie | 175 miliardów[19] | 96 | 2048 | 12 288 | 3,2 mln | "3640 petaFLOPS-dni"[17], lub FLOPS[18] |
GPT-4 | nauczanie z predykcją tekstu i uczeniem się przez wzmacnianie na podstawie informacji zwrotnej od ludzi. Akceptuje tekst jak i obraz[20] | Nieujawniona, szacunkowo ok. 1,7 biliona[21] | 768 | 8192 do 32 768 | 49 152 | Nieznany | Nieujawniona, szacunkowo lub FLOPS[18] |
Przypisy
[edytuj | edytuj kod]- ↑ Sztuczna inteligencja albo nas zbawi, albo zabije. Mam tyle samo nadziei, co obaw [online], CHIP – Technologie mamy we krwi!, 18 marca 2023 [dostęp 2024-05-25] (pol.).
- ↑ A short history of AI. „The Economist”, s. 56, 20th July 2024.
- ↑ a b c Improving Language Understanding by Generative Pre-Training.
- ↑ EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J. [dostęp 2023-04-08]. (ang.).
- ↑ Cerebras Systems Releases Seven New GPT Models Trained on CS-2 Wafer-Scale Systems.
- ↑ a b GPT-3: Its Nature, Scope, Limits, and Consequences. „Minds & Machines”. 30, 681–694, 2020. DOI: 10.1007/s11023-020-09548-1.
- ↑ Geoffrey Hinton i inni, Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups, „IEEE Signal Processing Magazine”, 29 (6), 2012, s. 82–97, DOI: 10.1109/MSP.2012.2205597, ISSN 1558-0792 [dostęp 2025-04-10] .
- ↑ Li Deng , A tutorial survey of architectures, algorithms, and applications for deep learning, „APSIPA Transactions on Signal and Information Processing”, 3 (1), 2014, DOI: 10.1017/atsip.2013.9, ISSN 2048-7703 [dostęp 2025-04-10] (ang.).
- ↑ Dumitru Erhan i inni, Why Does Unsupervised Pre-training Help Deep Learning?, JMLR Workshop and Conference Proceedings, 31 marca 2010, s. 201–208 [dostęp 2025-04-10] (ang.).
- ↑ Kyunghyun Cho i inni, Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation, arXiv, 3 września 2014, DOI: 10.48550/arXiv.1406.1078 [dostęp 2025-04-10] .
- ↑ Ashish Vaswani i inni, Attention is All you Need, „Advances in Neural Information Processing Systems”, 30, Curran Associates, Inc., 2017 [dostęp 2024-05-21] (ang.).
- ↑ Jacob Devlin i inni, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv, 24 maja 2019, DOI: 10.48550/arXiv.1810.04805 [dostęp 2025-04-10] .
- ↑ Radford i inni, Improving Language Understanding by Generative Pre-Training [online], OpenAI, 2018 .
- ↑ ChatGPT – historia i wersje [online], Wszystko O ChatGPT [dostęp 2023-04-17] (pol.).
- ↑ GPT-4 [online], openai.com [dostęp 2023-04-17] (ang.).
- ↑ Improving language understanding with unsupervised learning [online], openai.com, 14 lutego 2024 [dostęp 2025-04-10] (ang.).
- ↑ a b Tom B. Brown i inni, Language Models are Few-Shot Learners, arXiv, 22 lipca 2020, DOI: 10.48550/arXiv.2005.14165 [dostęp 2025-04-10] .
- ↑ a b c Data on Notable AI Models [online], Epoch AI, 19 czerwca 2024 [dostęp 2025-04-10] (ang.).
- ↑ Number of ChatGPT Users and Key Stats (December 2024) [online], NamePepper [dostęp 2025-04-10] (ang.).
- ↑ GPT-4 Technical Report, OpenAI [zarchiwizowane 2023-03-14] .
- ↑ Matthias Bastian , GPT-4 has more than a trillion parameters - Report [online], THE DECODER, 25 marca 2023 [dostęp 2025-04-10] (ang.).
Linki zewnętrzne
[edytuj | edytuj kod]- Andrej Karpathy: State of GPT. Microsoft Build. (wideo)
- But what is a GPT? Visual intro to transformers | Chapter 5, Deep Learning w serwisie YouTube