![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Я тут погодився ближче до кінця весни провести короткий курс з однієї з тем датазнавства, причинно-наслідкового моделювання. Тепер шукаю хороший приклад, на якому це діло добре би ілюструвати. Дані, з якими я працював професійно я, зі зрозумілих причин, використовувати не можу. Хочеться якийсь цікавий публічний датасет.
Словом, не порадите, де би таке взяти? В ідеалі, це повинна бути якась велика таблиця даних, на десятки тисяч, а краще більше, рядків, з ось такими вимогами:
1. має бути один "результат", який (а) міряють (б) кількісно для кожного семпла. Ну, там, зарплата, виплата, оцінка з тесту, айкʼю індекс і т. п.
2. має бути більше двох-трьох причинних змінних, які до цього результату призводять. Вони можуть бути числовими, можуть бінарними, можна категорійними, але на кілька класів, не більше, бо потім все-одно в числа переводити
3. Одна зі змінних має бути бінарною, ми будемо рахувати вплив цієї оної змінної.
Хорошим прикладом була би, наприклад, табличка базової статистики людей, яких наймають на роботу, з усякими базовими змінними: професія (галузь), вік, стать, попередня зарплатня, освіта, роки досвіду, раса, регіон, ще щось, ну і, нарешті, зарплатня, яку цій людині запропонували при наймі. Роками точиться суперечка, чи дискримінують роботодавці *сьогодні*, допустімо, жінок чи негрів чи ще когось за їхню расу чи стать. Одні кажуть, що є дискримінація, інші кажуть, що давно нема. Це би був ідеальний спосіб ізолювати саме вплив потрібного фактору. Словом, гей, активісти, якщо у вас є тверде переконння на цю тему і набір даних, яким ви це переконання пояснюєте, покажіть мені ті дані! Буде вам прохвесійний казуальний аналіз з чесною відповіддю, можливість закрити якусь одну тему.
Бо, блін, хоч би щось знайти.... Спеціалісти зі статистики, які ці всі методи придумують, переконують себе, що воно працює через симуляцію: симулювали вхідні дані, застосували свій метод, все вийшло, і ходять щасливі, хваляться/публікуються. Але як слушно казав один мій колєґа ще з академічних часів, коли я займався діагностичними зображеннями, симуляція -- це як мастурбація, you know that the results will come to be but have no idea what would happen if you have to do it in real life :)
Ліричний відступ: я продовжую страждати через недосконалість української термінології в датазнавстві. Саме слово "датазнавство" я вживав і вживати буду, хай я буду такий один, це буде моя "Carthago delenda est". Але, холєра, як українською dataset? Так і писатиму, "датасет."..
Словом, не порадите, де би таке взяти? В ідеалі, це повинна бути якась велика таблиця даних, на десятки тисяч, а краще більше, рядків, з ось такими вимогами:
1. має бути один "результат", який (а) міряють (б) кількісно для кожного семпла. Ну, там, зарплата, виплата, оцінка з тесту, айкʼю індекс і т. п.
2. має бути більше двох-трьох причинних змінних, які до цього результату призводять. Вони можуть бути числовими, можуть бінарними, можна категорійними, але на кілька класів, не більше, бо потім все-одно в числа переводити
3. Одна зі змінних має бути бінарною, ми будемо рахувати вплив цієї оної змінної.
Хорошим прикладом була би, наприклад, табличка базової статистики людей, яких наймають на роботу, з усякими базовими змінними: професія (галузь), вік, стать, попередня зарплатня, освіта, роки досвіду, раса, регіон, ще щось, ну і, нарешті, зарплатня, яку цій людині запропонували при наймі. Роками точиться суперечка, чи дискримінують роботодавці *сьогодні*, допустімо, жінок чи негрів чи ще когось за їхню расу чи стать. Одні кажуть, що є дискримінація, інші кажуть, що давно нема. Це би був ідеальний спосіб ізолювати саме вплив потрібного фактору. Словом, гей, активісти, якщо у вас є тверде переконння на цю тему і набір даних, яким ви це переконання пояснюєте, покажіть мені ті дані! Буде вам прохвесійний казуальний аналіз з чесною відповіддю, можливість закрити якусь одну тему.
Бо, блін, хоч би щось знайти.... Спеціалісти зі статистики, які ці всі методи придумують, переконують себе, що воно працює через симуляцію: симулювали вхідні дані, застосували свій метод, все вийшло, і ходять щасливі, хваляться/публікуються. Але як слушно казав один мій колєґа ще з академічних часів, коли я займався діагностичними зображеннями, симуляція -- це як мастурбація, you know that the results will come to be but have no idea what would happen if you have to do it in real life :)