Трансформеры устарели? Нужна помощь с новыми архитектурами!

Народ, есть кто в теме новых нейросеток? Мы тут пытаемся внедрить последние достижения в нашу разработку, но что-то застряли. Стандартные трансформеры уже кажутся прошлым веком, а эти новые архитектуры типа Mamba или все эти State Space Models – вообще темный лес. Пытались подружить их с нашими данными, но производительность падает, а точность не растет. Какие есть рабочие примеры практического применения этих штук? Может, кто-то уже сталкивался и нашел решение?