SpeakLeash

Website: https://speakleash.org/

SpeakLeash jest polskim projektem open-science, który koncentruje się na zbieraniu, rejestrowaniu i oczyszczaniu polskich zbiorów tekstowych w celu trenowania dużych modeli językowych. Projekt został założony w 2022 roku przez Sebastiana Kondrackiego i na początku skupiał się wyłącznie na danych. Czerpiąc inspirację z takich projektów jak The Pile (EleutherAI) i The Roots (projekt BigScience), po zgromadzeniu ponad 1 TB danych oraz opracowaniu szeregu narzędzi do ich przetwarzania, SpeakLeash rozpoczął prace nad własnym dużym modelem językowym. W końcówce 2023 roku do zespołu dołączył Krzysztof Ociepa, tworząc pierwszy bazowy model z 500 milionami parametrów, APT-3, oparty na architekturze Llama. Wraz z zespołem, SpeakLeash podjął się zadania opracowania modelu z 1 miliardem parametrów, korzystając z 290 GB starannie wyselekcjonowanych polskich tekstów. Równocześnie zespół rozpoczął prace nad zestawem polskich instrukcji, aby odpowiednio dostosować model bazowy. W skład zespołu wchodzi już około 200 osób, w tym przedstawiciele biznesu oraz środowisk akademickich, takich jak studenci, doktoranci i pracownicy naukowi. W 2024 roku SpeakLeash nawiązał współpracę z Akademickim Centrum Komputerowym Cyfronet AGH. Cyfronet dysponuje czterema superkomputerami: Prometeusz o mocy obliczeniowej 2,7 PFlops, Atena z 7,7 PFlops, Ares o mocy 4 PFlops oraz Helios, którego moc obliczeniowa sięga około 35 PetaFlops. W ramach współpracy z zespołem SpeakLeash, centrum zdecydowało się na realizację ambitnego projektu mającego na celu stworzenie pierwszego modelu językowego z ponad 10 miliardami parametrów oraz wsparcia projektu mocą obliczeniową i przestrzenią dyskową na potrzeby klasyfikacji, filtracji oraz deduplikacji zbiorów danych. Celem dalszych działań jest dziedzinowe dostrajanie tego modelu, głównie w zakresie przetwarzania danych. Dzięki opracowanemu modelowi, możliwe będzie również efektywne gromadzenie i przygotowanie danych multimodalnych, co stanowi kluczowy krok w budowie zaawansowanych systemów językowych.
Projekt skupia wokół siebie wiele specjalistycznych zespołów, w tym:
Zbiór danych (Data Collection): pod kierownictwem Jacka Chwiły, odpowiedzialny za gromadzenie danych,
Przygotowanie danych: pod kierownictwem Adriana Gwoździeja, odpowiedzialny za selekcję danych do treningu modeli,
Trening: kierowany przez Krzysztofa Ociepę, odpowiedzialny za proces treningowy modeli językowych,
Instrukcje: prowadzony przez Sebastiana Kondrackiego, zajmujący się opracowywaniem szczegółowych instrukcji dostrajania modeli,
Transkrypcje: prowadzony przez Grzegorza Urbanowicza, odpowiedzialny za dostarczanie dobrej jakości tekstów z tematycznych kanałów YouTube.
Testowanie (Benchmark): pod przewodnictwem Krzysztofa Wróbla, zajmujący się oceną wydajności i skuteczności modeli,
Wsparcie projektu: koordynowane przez Izabelę Babis, zapewniające logistyczne i organizacyjne wsparcie dla całego przedsięwzięcia,
Biblioteki programistyczne i programy narzędziowe: prowadzone przez Igora, skupiające się na tworzeniu i udostępnianiu narzędzi wspierających rozwój i implementację modeli.
HPC (High Performance Computing), skalowanie, oraz wsparcie obliczeniowe – Łukasz Flis, Szymon Mazurek

Zespół

W ramach projektu SpeakLeash, ponad 200 osób aktywnie uczestniczy w komunikacji poprzez kanały Discord, dzieląc się wiedzą i doświadczeniem związanym zarówno z biznesem, jak i środowiskami naukowymi. Spośród nich, ponad 30 osób angażuje się w prace na platformie GitHub, gdzie pracują nad tworzeniem narzędzi do rejestrowania, zbierania i oczyszczania danych, a także nad opracowywaniem modeli do klasyfikacji tematycznej i oceny jakości danych. Ich działania koncentrują się głównie na trenowaniu dużych modeli językowych, co stanowi kluczowy element rozwoju całego projektu.

Członkowie zespołu SpeakLeash:

Sebastian Kondracki
Krzysztof Ociepa
Adrian Gwoździej
Maria Filipkowska
Grzegorz Urbanowicz
Szymon Baczyński
Paweł Kiszczak
Igor Ciuciura
Paweł Cyrta
Izabela Babis
Waldemar Boszko
Krzysztof Wróbel
Jacek Chwiła
Jan Maria Kowalski
Karol Jezierski
Kamil Nonckiewicz
oraz wielu innych cudnych badaczy i fascynatów świata AI jednak zbyt skromnych, aby umieścić swoje dane.

Kontakt