Nanbeige4-3B: новая модель с 3 миллиардами параметров показывает выдающиеся результаты

В ноябре представили модель Nanbeige4-3B-25-11, которая содержит всего 3 миллиарда параметров, что почти в 100 раз меньше, чем у GPT-4. Несмотря на это, на тестах она показывает результаты, превышающие показатели моделей с 10 миллиардами параметров. На бенчмарке WritingBench Nanbeige4-3B занимает промежуточное место между Gemini-2.5-Pro и Deepseek-R1-0528.

Ключ к успеху заключается в качестве обучающих данных. Вместо традиционного подхода с большими датасетами, разработчики отобрали 23 триллиона токенов по строгим критериям. Обучение модели прошло поэтапно, начиная с простых данных и переходя к высококачественным. Внедрённые методы, такие как FG-WSD и DPD, позволили улучшить результаты на 10% и 30% соответственно.

Модель также использует обучение с подкреплением, что обеспечивает стабильные результаты. Nanbeige4-3B работает на обычном оборудовании, поддерживает локальное использование и быструю производительность. Однако стоит помнить, что на узких задачах она может проигрывать более крупным моделям. В целом, Nanbeige4-3B демонстрирует, что качество обучения важнее объёма данных.