Ребят, я уже неделю бьюсь над одной задачей. Пытаюсь реализовать кастомную архитектуру трансформера для обработки временных рядов, но что-то идет не так. Модель выдаёт какую-то дичь, метрики не растут, будто я ее вообще не обучаю. Пробовал менять learning rate, оптимизаторы, даже размер батча. Все без толку. Может, кто-то сталкивался с подобным? Какие могут быть подводные камни в R&D таких штук?
Комментариев 6
Посетители, находящиеся в группе Гости Kraken, не могут оставлять комментарии к данной публикации.