Efekt Sputniku, konec americké dominance v AI, i takové komentáře vyvolalo vydání nového chatbotu DeepSeek R1, který se svými schopnostmi řadí mezi elitu velkých jazykových modelů, jako je nejnovější o1 od OpenAI. Důvodem částečné paniky bylo to, že měl vývoj tohoto modelu stát zlomek toho, co stojí náklady amerických společností OpenAI, Alphabet (Google), Anthropicu nebo Mety. A levnější má být i jeho provoz.
Není se tak co divit, že to vyznělo tak trochu jako facka projektu Stargate, kterou začala OpenAI a spolupracující firmy připravovat loni, aby ji letos s velkou pompou ohlásil krátce po své inauguraci Donald Trump jako cestu, která má přinést Spojeným státům velký náskok v oblasti umělé inteligence. Projekt tak byl přirovnáván k projektu Manhattan, který umožnil USA vytvořit jako prvním atomovou bombu, byť tentokrát jdou finance ze soukromých zdrojů.
Připomeňme jen, že StarGate je společný podnik OpenAI, Oraclu, japonské SoftBank a investičního fondu MGX se sídlem v Abú Dhabí, v jehož rámci plánují postupně utratit až 500 miliard dolarů, jež mají padnout na otevření obrovských datových center po celých USA.
Není se tak co divit, že oznámení výrazně levnějšího modelu, který by postavil současné nákladné projekty na hlavu, vyvolal paniku nejen na akciových trzích.
Společnost Meta vlastnící mimo jiné Facebook a vyvíjející vlastní jazykový model Llama tak v reakci například sestavila čtyři „válečné místnosti“ složené z inženýrů. Dva týmy mají zjistit, jak se startupu podařilo snížit náklady na vývoj modelu, a druhé dva pak mají vyhodnotit, jaká data DeepSeek využil pro trénink a jak by se měl změnit samotný model Llama na základě nové situace.
Sam Altman, který šéfuje OpenAI, se zase nechal podle agentury Reuter slyšet, že je model umělé inteligence R1 čínského startupu DeepSeek „působivý“, ale zdůraznil, že OpenAI věří, že klíčem k jejich vlastnímu úspěchu je větší výpočetní výkon.
Na síti X pak dodal, že „samozřejmě dodá mnohem lepší modely“ a že je povzbuzující mít nového konkurenta.
K chatbotovi DeepSeek se vyjádřil i prezident Trump, který jeho uvedení prohlásil za budíček pro americké technologické společnosti.
Levný, ale trochu tajemný
Za projektem DeepSeek stojí Liang Wenfeng, který dříve spoluzaložil jeden z největších čínských hedgeových fondů High-Flyer, jenž se zabývá algoritmickým obchodováním, podobně jako například česká RSJ.
Fond do roku 2022 nashromáždil minimálně 10 000 vysoce výkonných speciálních čipů A100 kalifornské společnosti Nvidia, které se používají k trénování a provozování AI systémů. Vyplývá to podle agentury Reuters z příspěvku, který v létě zveřejnil na čínské sociální mediální platformě WeChat. USA brzy poté omezily prodej těchto čipů do Číny.
Samotný startup DeepSeek byl založen v roce 2023 v čínském Chang-čou a ještě téhož roku vydal svůj první velký jazykový model.
Zajímavé je, že předposlední jazykový model DeepSeek -V3 byl postaven na méně výkonných čipech H800 společnosti Nvidia, které v Číně zakázány nejsou. Firma za ně měla utratit méně než šest milionů USD (143 milionů Kč). O původním klastru přitom startup nemluví.
Čip H800 je upravená verze čipu Nvidia H100, který byl speciálně vytvořen pro čínský trh, aby splňoval americká exportní omezení na pokročilé čipy do Číny, a má omezenou šířku pásma paměti. H100 je jedním z nejvýkonnějších akcelerátorů na trhu, ale je také velmi drahý – může stát až desítky tisíc dolarů. Ten využívají velké západní společnosti, které AI provozují. Firma tak vyslala signál, že pro špičkový výzkum AI nemusí být zapotřebí ten nejluxusnější hardware.
Na druhou stranu startup přiznává, že využil jiné open-source modely, jako je Llama od Mety a Qwen od čínského internetového prodejce Alibaba. Tím mohl ušetřit stovky milionů dolarů oproti tomu, kdyby svůj produkt stavěl na zelené louce.
Server The Register přinesl shrnutí výsledků některých dotazů, v nichž se DeepSeek identifikoval jako ChatGPT nebo Claude od Anthropicu.
„Lidé, kteří se o tento problém zajímají, vědí, že je to pravděpodobně proto, že DeepSeek v3 byl vycvičen za pomoci dat z výstupu GPT-4, což se zdá být při tréninku mnoha LLM docela běžné,“ upozorňuje na vývojářském serveru GitHub softwarový inženýr z Microsoftu Dongbo Wang.
Zároveň ze společnosti Meta přichází pochvalná reakce za využití open-source. „Přišli s novými nápady a postavili je na práci jiných lidí. Protože jejich práce je zveřejňována jako open source, může z ní profitovat každý. To je síla otevřeného výzkumu a open source,“ napsal na LinkedIn Yann LeCun, vedoucí AI vědec v Metě.
Nové nápady firma DeepSeek popsala ve své zprávě o modelu. Hlavní změna oproti konkurenci spočívá v tom, že trénovala pouze nezbytné části modelu. Běžné trénování modelů umělé inteligence obvykle zahrnuje aktualizaci všeho, i těch částí, u kterých to není tak důležité, a to vede k plýtvání zdroji. Firma při tom využívá dynamické rozdělovat úlohy do správných částí modelu.
Ve výsledku to vedlo k tomu, že na jeden token (část slova) bylo natrénováno pouze 5 % parametrů modelu. To mělo vést k 95% snížení vytížení GPU ve srovnání s běžným trénováním, aniž by došlo ke ztrátě přesnosti.
DeepSeek nabízí výhodu i na straně výstupu, kde lépe využívá zdroje, a je tak úspornější. Trik spočívá v tom, že komprimuje tzv. key/value páry, což jsou zjednodušeně řečeno informace umožňující rychle vyhledávat hodnoty na základě klíčů. Ty jsou v AI ve vyrovnávací paměti a jsou klíčové pro „udržení pozornosti“ systému. V plné kapacitě však zabírají hodně paměti. Společnost DeepSeek využila způsob, jak tyto páry efektivně komprimovat, čímž se zmenšilo úložiště, aniž by to bylo na úkor výkonu. V případě potřeby se komprimovaná data rozbalí zpět s minimální ztrátou přesnosti.
Ve výsledku pak je možné DeepSeek rozběhnout na několika propojených počítačích Mac mini.
Uvažující model R1
Možná ještě větší důvod ke znepokojení na americkém trhu pak přineslo zveřejnění modelu DeepSeek R1, což je tzv. uvažující (reasoning) model, fungující podobně jako o1. Tento model rozkouskuje dotaz do jednotlivých kroků a k výsledkům těchto kroků si vytváří jakousi oponenturu. To je samozřejmě náročnější na výpočetní výkon, a odpovědi tak bývají pomalejší, ale přesnější především u matematických, programátorských a dalších požadavků vyžadujících exaktnější odpovědi. Omezuje se také tzv. halucinace AI, kdy si chatbot vymýšlí.
Zájem o chatbota DeepSeek byl mezitím ve Spojených státech tak obrovský, že se stal nejstahovanější aplikací obchodu s aplikacemi společnosti Apple. Navíc je jeho použití zdarma. Platí jen zájemci o jeho aplikační rozhraní a to zlomek ceny, který chce OpenAI, přičemž výsledky mají být podobné.
Velký zájem vedl startup k omezení nových registrací a v pondělí se také měl vypořádat s kybernetickým útokem.
Firma výsledky své práce dala veřejně k dispozici pod open-source licencí, takže si každý může stáhnout DeepSeek v různé kvalitě (s různou velikostí parametrů) a používat ho lokálně. Mimochodem s přibližně 670 miliardami parametrů je dosud největším otevřeným jazykovým modelem.
První testy ukázaly, že DeepSeek nechce odpovídat na dotazy, které nevyhovují čínské vládě, ale v případě lokálně provozovaného modelu toto omezení zatím patrně neplatí. Na dotaz BBC o událostech na náměstí Nebeského klidu 4. června 1989 odpověděl: „Je mi líto, ale na tuto otázku nemohu odpovědět. Jsem asistent umělé inteligence navržený tak, aby poskytoval užitečné a neškodné odpovědi.“
Kdo si bude chtít chatbota DeepSeek vyzkoušet, měl by mít na paměti, že všechny interakce s ním jsou zaznamenány a vámi poskytnutá data ukládána, přičemž zájemce nemá kontrolu nad tím, co se s nimi následně děje.
Obrázkový Janus
Aby toho nebylo málo, firma tento týden zveřejnila svůj další produkt. Tím je generátor obrázků Janus-Pro, který navazuje na předchozí model Janus. Jeho výsledky mají odpovídat zhruba schopnostem Dall-E od OpenAI s tím rozdílem, že generuje obrázky s rozlišením pouhých 384 × 384 zobrazovacích bodů. Dall-E v základním nastavení poskytuje rozlišení 1 024 × 1 024 pixelů.
Startup přitom tvrdí, že Janus-Pro-7B překonává své konkurenty, jako je DALL-E 3 od OpenAI a Stable Diffusion od Stability AI, v klíčových srovnávacích testech generování obrazu a poskytuje ostřejší a stabilnější obrazové výstupy.
K dispozici jsou dva modely, menší s jednou miliardou parametrů a větší se sedmi miliardami.