Я тут погодився ближче до кінця весни провести короткий курс з однієї з тем датазнавства, причинно-наслідкового моделювання. Тепер шукаю хороший приклад, на якому це діло добре би ілюструвати. Дані, з якими я працював професійно я, зі зрозумілих причин, використовувати не можу. Хочеться якийсь цікавий публічний датасет.
Словом, не порадите, де би таке взяти? В ідеалі, це повинна бути якась велика таблиця даних, на десятки тисяч, а краще більше, рядків, з ось такими вимогами:
1. має бути один "результат", який (а) міряють (б) кількісно для кожного семпла. Ну, там, зарплата, виплата, оцінка з тесту, айкʼю індекс і т. п.
2. має бути більше двох-трьох причинних змінних, які до цього результату призводять. Вони можуть бути числовими, можуть бінарними, можна категорійними, але на кілька класів, не більше, бо потім все-одно в числа переводити
3. Одна зі змінних має бути бінарною, ми будемо рахувати вплив цієї оної змінної.
Хорошим прикладом була би, наприклад, табличка базової статистики людей, яких наймають на роботу, з усякими базовими змінними: професія (галузь), вік, стать, попередня зарплатня, освіта, роки досвіду, раса, регіон, ще щось, ну і, нарешті, зарплатня, яку цій людині запропонували при наймі. Роками точиться суперечка, чи дискримінують роботодавці *сьогодні*, допустімо, жінок чи негрів чи ще когось за їхню расу чи стать. Одні кажуть, що є дискримінація, інші кажуть, що давно нема. Це би був ідеальний спосіб ізолювати саме вплив потрібного фактору. Словом, гей, активісти, якщо у вас є тверде переконння на цю тему і набір даних, яким ви це переконання пояснюєте, покажіть мені ті дані! Буде вам прохвесійний казуальний аналіз з чесною відповіддю, можливість закрити якусь одну тему.
Бо, блін, хоч би щось знайти.... Спеціалісти зі статистики, які ці всі методи придумують, переконують себе, що воно працює через симуляцію: симулювали вхідні дані, застосували свій метод, все вийшло, і ходять щасливі, хваляться/публікуються. Але як слушно казав один мій колєґа ще з академічних часів, коли я займався діагностичними зображеннями, симуляція -- це як мастурбація, you know that the results will come to be but have no idea what would happen if you have to do it in real life :)
Ліричний відступ: я продовжую страждати через недосконалість української термінології в датазнавстві. Саме слово "датазнавство" я вживав і вживати буду, хай я буду такий один, це буде моя "Carthago delenda est". Але, холєра, як українською dataset? Так і писатиму, "датасет."..
Словом, не порадите, де би таке взяти? В ідеалі, це повинна бути якась велика таблиця даних, на десятки тисяч, а краще більше, рядків, з ось такими вимогами:
1. має бути один "результат", який (а) міряють (б) кількісно для кожного семпла. Ну, там, зарплата, виплата, оцінка з тесту, айкʼю індекс і т. п.
2. має бути більше двох-трьох причинних змінних, які до цього результату призводять. Вони можуть бути числовими, можуть бінарними, можна категорійними, але на кілька класів, не більше, бо потім все-одно в числа переводити
3. Одна зі змінних має бути бінарною, ми будемо рахувати вплив цієї оної змінної.
Хорошим прикладом була би, наприклад, табличка базової статистики людей, яких наймають на роботу, з усякими базовими змінними: професія (галузь), вік, стать, попередня зарплатня, освіта, роки досвіду, раса, регіон, ще щось, ну і, нарешті, зарплатня, яку цій людині запропонували при наймі. Роками точиться суперечка, чи дискримінують роботодавці *сьогодні*, допустімо, жінок чи негрів чи ще когось за їхню расу чи стать. Одні кажуть, що є дискримінація, інші кажуть, що давно нема. Це би був ідеальний спосіб ізолювати саме вплив потрібного фактору. Словом, гей, активісти, якщо у вас є тверде переконння на цю тему і набір даних, яким ви це переконання пояснюєте, покажіть мені ті дані! Буде вам прохвесійний казуальний аналіз з чесною відповіддю, можливість закрити якусь одну тему.
Бо, блін, хоч би щось знайти.... Спеціалісти зі статистики, які ці всі методи придумують, переконують себе, що воно працює через симуляцію: симулювали вхідні дані, застосували свій метод, все вийшло, і ходять щасливі, хваляться/публікуються. Але як слушно казав один мій колєґа ще з академічних часів, коли я займався діагностичними зображеннями, симуляція -- це як мастурбація, you know that the results will come to be but have no idea what would happen if you have to do it in real life :)
no subject
Date: 2024-03-14 05:24 pm (UTC)no subject
Date: 2024-03-14 05:30 pm (UTC)І т.п. у Британії гарні халявні статистики прямо на ons.gov.uk
no subject
Date: 2024-03-14 05:43 pm (UTC)На Каґґл подивлюся. У них там, правда, зазвичай серйозно оброблені наперед дані, а хотілося необроблених
no subject
Date: 2024-03-14 06:19 pm (UTC)Вхідні дані по доходах людей у відкритому доступі будуть лише у вигляді агрегатів. А сирі дані там є - time series, data by region, various attributions...
no subject
Date: 2024-03-14 06:24 pm (UTC)Агрегатів мені якраз принципово не треба
> А сирі дані там є - time series, data by region, various attributions...
Це не сирі, це результати аналізу. СИрі це: юзер_айді, зарплата, таймстемп, var1, var2, var3...
no subject
Date: 2024-03-14 06:28 pm (UTC)no subject
Date: 2024-04-03 02:47 pm (UTC)no subject
Date: 2024-04-03 04:15 pm (UTC)Коли вони почнуть маркетувати це діло, я тут дам посилання
no subject
Date: 2024-04-04 03:14 am (UTC)no subject
Date: 2024-03-15 03:56 pm (UTC)