


На 2 февруари китайската компания за изкуствен интелект StepFun официално пусна Step 3.5 Flash, своя най-нов и най-мощен основен модел с отворен код, позиционирайки го като „роден за агенти“. Компанията казва, че моделът предоставя силни възможности за разсъждение, висока стабилност и производителност, оптимизирани специално за работни процеси, базирани на агент.

Основните акценти включват:
- По-бързо: Скорости на извеждане до 350 токена в секунда за задачи за кодиране с една заявка
- По-силен: Производителност в сценарии на агент и математически разсъждения, сравними с водещи модели със затворен код
- По-стабилен: Способен да се справя със сложни задачи с дълъг хоризонт и много стъпки

Според StepFun следващото поколение модели на основата трябва да бъде не само „по-интелигентно“, но и надеждно, отзивчиво и рентабилно. За да постигне този баланс, Step 3.5 Flash приема няколко архитектурни иновации:
- Sparse Mixture-of-Experts (MoE): Всеки токен активира само около 11 милиарда параметъра, от общо 196 милиарда, което значително намалява изчислителните разходи
- MTP-3 (Multi-Token Prediction): Моделът предвижда три токена на стъпка, като ефективно удвоява ефективността на извода
- Хибридна архитектура на вниманието (SWA + пълно внимание): 3:1 плъзгащ се прозорец към глобална комбинация от внимание позволява на модела да се фокусира върху ключови сегменти в дълги текстове, което позволява ефективна обработка на дължина на контекста до 256K с по-ниски изчислителни разходи
Стъпка 3.5 Flash вече е напълно достъпна и StepFun също така разкри, че обучението за модела Стъпка 4 вече е започнало. Компанията покани разработчици и изследователи да участват в отвореното развитие на модела и съвместното създаване на екосистема.
Със своя акцент върху интелигентността на агентите, разсъжденията в дълъг контекст и ефективността на изводите, Step 3.5 Flash сигнализира за амбицията на StepFun да създаде конкурентна основа с отворен код за следващо поколение AI агентски системи.
Източник: IT Home
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта