Model fundamentalny
Model fundamentalny, model podstawowy[1] (ang. foundation model, FM) – model uczenia maszynowego lub głębokiego uczenia, który jest trenowany na dużych zbiorach danych, tak aby można go było stosować w szerokim zakresie przypadków użycia[2][3]. Przykładami modeli fundamentalnych są duże modele językowe[4].
Budowa modeli fundamentowych wymaga drogich zasobów, a najbardziej zaawansowane modele kosztują setki milionów dolarów, co wiąże się z koniecznością pokrycia wydatków na pozyskiwanie, gromadzenie i przetwarzanie dużych zbiorów danych, a także mocy obliczeniowej niezbędnej do szkoleń. Adaptacja modelu fundamentalnego na własny użytek zmniejsza koszt wdrożenia modelu w danym przypadku użycia[3].
Wczesnymi przykładami modeli podstawowych są modele językowe takie jak seria GPT od OpenAI i BERT od Google[5][6]. Oprócz tekstów, opracowano modele fundamentalne do różnych zastosowań:
Opracowywane są również modele fundamentalne dla takich dziedzin jak astronomia[10], radiologia[11], genetyka[12], muzyka[13], programowanie, prognozowanie szeregów czasowych[14], matematyka[15] i chemia[16].
Adaptacja
[edytuj | edytuj kod]Modele podstawowe są z natury ogólnego zastosowania. Aby użyć ich w konkretnym przypadku, konieczna jest ich adaptacja. Modele muszą zostać dostosowane do wykonywania ich zadania, dzięki czemu mogą osiągnąć lepszą wydajność w danej specjalizacji[17].
Różne metody jak inżynieria podpowiedzi czy dostrajanie pozwalają na specjalizację modelu fundamentalnego mniejszym lub większym kosztem. Inżynierowie mogą też zmodyfikować samą sieć i zmniejszyć ilość parametrów z bilionów do ułamka tej wartości przez używanie ostatniej warstwy sieci neuronowej[18].
Przypisy
[edytuj | edytuj kod]- ↑ Włodzimierz Szpringer , Modele podstawowe AI – nowe dylematy platformizacji w gospodarce cyfrowej, „Kwartalnik Nauk o Przedsiębiorstwie”, 75 (1), 2025, s. 5–22, DOI: 10.33119/KNOP.2025.75.1.1, ISSN 2719-3276 [dostęp 2025-04-15] .
- ↑ Lidia Krawczyk , Maszynowe projektowanie statystycznych renderingów, czyli kultura wizualna w służbie sztucznej inteligencji, „AUPC Studia ad Bibliothecarum Scientiam Pertinentia”, 22, 2024, s. 532–560, DOI: 10.24917/20811861.22.31, ISSN 2300-3057 [dostęp 2025-04-15] (pol.).
- ↑ a b Rishi Bommasani i inni, On the Opportunities and Risks of Foundation Models, „arXiv”, 2022, DOI: 10.48550/arXiv.2108.07258, arXiv:2108.07258 [dostęp 2025-04-15] .
- ↑ Competition and Markets Authority , AI Foundation Models: Initial Report [online], 2023 .
- ↑ Mohammed Haddad , How does GPT-4 work and how can you start using it in ChatGPT? [online], Al Jazeera [dostęp 2025-04-15] (ang.).
- ↑ Anna Rogers , Olga Kovaleva , Anna Rumshisky , A Primer in BERTology: What we know about how BERT works, „arXiv”, 2020, DOI: 10.48550/arXiv.2002.12327, arXiv:2002.12327 [dostęp 2025-04-15] .
- ↑ Tackling multiple tasks with a single visual language model [online], Google DeepMind, 2 kwietnia 2025 [dostęp 2025-04-15] (ang.).
- ↑ Jade Copet i inni, Simple and Controllable Music Generation, „arXiv”, 2024, DOI: 10.48550/arXiv.2306.05284, arXiv:2306.05284 [dostęp 2025-04-15] .
- ↑ Speaking robot: Our new AI model translates vision and language into robotic actions [online], Google, 28 lipca 2023 [dostęp 2025-04-15] (ang.).
- ↑ Tuan Dung Nguyen i inni, AstroLLaMA: Towards Specialized Foundation Models in Astronomy, „arXiv”, 2023, DOI: 10.48550/arXiv.2309.06126, arXiv:2309.06126 [dostęp 2025-04-15] .
- ↑ Tao Tu i inni, Towards Generalist Biomedical AI, „arXiv”, 2023, DOI: 10.48550/arXiv.2307.14334, arXiv:2307.14334 [dostęp 2025-04-15] .
- ↑ Maxim Zvyagin i inni, GenSLMs: Genome-scale language models reveal SARS-CoV-2 evolutionary dynamics, bioRxiv, 23 listopada 2022, DOI: 10.1101/2022.10.10.511571 [dostęp 2025-04-15] (ang.).
- ↑ Spotify Engineering , LLark: A Multimodal Foundation Model for Music [online], Spotify Research, 13 października 2023 [dostęp 2025-04-15] (ang.).
- ↑ 🔳 Turing Post , Revolutionizing Time Series Forecasting: Interview with TimeGPT's creators [online], Turing Post [dostęp 2025-04-15] (ang.).
- ↑ Zhangir Azerbayev i inni, Llemma: An Open Language Model For Mathematics, „arXiv”, 2024, DOI: 10.48550/arXiv.2310.10631, arXiv:2310.10631 [dostęp 2025-04-15] .
- ↑ Orbital [online], www.orbitalmaterials.com [dostęp 2025-04-15] .
- ↑ Johannes Schneider , Foundation models in brief: A historical, socio-technical focus, „arXiv”, 2022, DOI: 10.48550/arXiv.2212.08967, arXiv:2212.08967 [dostęp 2025-04-15] .
- ↑ Elad Ben Zaken , Shauli Ravfogel , Yoav Goldberg , BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models, „arXiv”, 2022, DOI: 10.48550/arXiv.2106.10199, arXiv:2106.10199 [dostęp 2025-04-15] .