Китайський стартап DeepSeek заявив про революційне зниження витрат на навчання ШІ-моделі R1, проте аналітики SemiAnalysis з’ясували, що компанія витратила мільярди доларів на обчислювальні потужності, що ставить під сумнів її твердження.
За офіційною інформацією DeepSeek, навчання моделі R1 коштувало всього $6 млн, використовуючи 2048 графічних процесорів. Однак SemiAnalysis виявила, що компанія насправді має парк із 50 000 GPU Nvidia Hopper і витратила $1,6 млрд на обладнання, а загальні інвестиції в розробку ШІ перевищили $500 млн.
DeepSeek походить із китайського хедж-фонду High-Flyer, який інвестував у ШІ та забезпечив стартапу фінансову незалежність. На відміну від інших компаній, DeepSeek використовує власні дата-центри, що дозволяє повністю контролювати дослідження та оптимізацію моделей. Також компанія залучає найкращих фахівців Китаю з зарплатами, що перевищують $1,3 млн на рік.
Стартап розробив інноваційну технологію Multi-Head Latent Attention (MLA), що покращує ефективність ШІ-моделей, зменшуючи залежність від обчислювальних потужностей. Деякі експерти вважають, що такі розробки можуть у майбутньому знизити попит на топові GPU, що потенційно вплине на компанії, як-от Nvidia. Попри заяви про низькі витрати, DeepSeek фактично витрачає мільярди, щоб конкурувати з лідерами ринку, роблячи ставку на оптимізацію та стратегічні інвестиції.