От uplift к logit

Где мы находимся
В предыдущем посте мы начали строить мост от uplift к score, который позволяет решать задачу бинарной классификации. Что уже сделано:
⚗️ посчитаны вероятности для всех комбинаций бинарного признака f и таргета L
⚗️ записано выражение для score S как логарифм отношения условных вероятностей

Обозначения
⚗️ L — бинарный таргет, значения 0 или 1 (l на картинке)
⚗️ f — бинарный признак, значения 0 или 1
⚗️ alpha = P(L=1) — вероятность таргета 1 (среднее значение таргета)
⚗️ beta = P(f=1) — coverage, вероятность что признак равен 1
⚗️ gamma = P(L=1|f=1) / P(L=1) — uplift
⚗️ S — score идеальной модели для предсказания таргета

Постановка задачи
Для заданных alpha, beta, gamma:
🦐 сгенерировать датасет с нестационарным uplift gamma
🦐 получить baseline-выражение S для предсказания таргета

Проверка здравого смысла
Для меня условные вероятности долго были terra incognita, поэтому я сделал простой sanity check: gamma = 1 означает, что фактор не добавляет информации о таргете. Значит веса такого фактора должны обнулиться. В прошлой версии это было неочевидно.

В этот раз я немного поменял нотацию и перешел к условным вероятностям вместо абсолютных. Теперь видно напрямую: при gamma = 1 выражения под логарифмами становятся равны 1, логарифмы дают 0, а члены с N и M (число единиц и нулей в наборе факторов) исчезают. То есть факторы действительно перестают влиять на score - ровно как и должно быть.

Результаты
🦐 есть корректные выражения для генерации датасета при произвольном gamma
🦐 получено выражение для оптимальной модели S
🦐 кейс gamma = 1 проверен, S ведет себя как ожидается
🦐 выражение для S образует мост от вероятностей к логистической регрессии
🦐 подход универсальный - его можно пробовать и на реальных данных