Краткий обзор презентации GBDTE.
Жребий брошен. Я назначил дату презентации по Gradient Boosted Decision Trees - 15 января. Планирую 45 минут, это примерно 30 слайдов. Времени не впритык, но и расслабляться нельзя.
Поэтому я решил остановиться здесь, где нахожусь сейчас, и поработать над презентацией. Текущая точка:
🌳есть эффективная многопоточная реализация на Go с Python-мостом
🌳есть синтетический набор данных MSE
🌳есть синтетический набор данных LogLoss
датасеты показывают, что модель работает и тянет сотни тысяч записей.
Немного о работах-предшественниках:
🌳2017 LinXGBoost: расширение XGBoost для обобщенных локальных линейных моделей arXiv
🌳2019 Gradient Boosting with Piece-Wise Linear Regression Trees (GBDT-PL) - IJCAI, paper
🌳2023 Fast Linear Model Trees by PILOT, arXiv
🌳2024 PINE / PINEBoost: Efficient Piecewise-Linear Trees for Gradient Boosting, paper
Я начал о них думать из-за одного интересного момента. В ряде работ авторы пытаются смешивать экстраполяционные и интерполяционные признаки. На мой взгляд, это плохая идея: ломается базовый принцип метода - одним типом признаков группируем объекты, другим ловим тренды.
Мой непреднамеренный эксперимент показал, что качество при таком смешивании падает. И, кажется, я уже понимаю почему.
