В недавних обсуждениях пользователи выразили недовольство о работе модели glm-4.6-flash, отметив ее низкую эффективность. Одной из причин могли стать ошибки в квантализации, которые негативно сказываются на качестве ответов, особенно на русском языке. Некоторые пользователи столкнулись с тем, что модель не понимает русский, и это создает впечатление о ее некомпетентности. Также упоминается, что в некоторых случаях модели могут выдавать ответы, но обрывать их на полуслове, что вызывает дополнительные вопросы о работе провайдеров.
В обсуждении затрагивается и вопрос о количестве активных параметров. Модели с меньшим количеством параметров часто не способны к связному мышлению, в то время как более сложные модели, такие как 7-8B, могут продемонстрировать лучшие результаты. Пользователи отмечают, что скорость генерации токенов у некоторых моделей оставляет желать лучшего, несмотря на высокую производительность в других аспектах.
Некоторые участники обсуждения рекомендуют использовать более продвинутые методы квантализации, такие как iq4 и mxfp4, которые обеспечивают лучшее качество. В целом, мнения разделяются, и пользователи продолжают искать оптимальные решения для работы с русским языком и эффективностью моделей.
