malyj_gorgan (
malyj_gorgan) wrote2023-08-30 03:48 pm
![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Entry tags:
А от вам математико-статистична задачка, в якій я загубився
У вас є магазин з мільйоном (грубо кажучи, насправді, більше) найменувань товарів. Всіх найрізноманітніших видів. І ось ви взяли, і за кожним найменуванням порахували продажі протягом двох тридцятиденних періодів один за одним: X0 і X1. Розподіл кожного з іксів -- приблизнно power-law, p ~ x-α. І ото вирішив я побудувати гістограму того, що називається "lift" -- відносна зміна продаж від місяця до місяця:
(X1 - X0) / (X0 + ε)
Епсилон там для того, аби не було ділення на нуль. (Десь 20% кожного з іксів -- нулі, але пари, де нулями є і X0, і X1, в популяцію не входять). Гістограма, як ви розумієте, тягнеться від -1 до безмежної асимптоти. І ось що я спостерігаю, і що мені абсолютно незрозуміло, звідки таке береться:
Що це, блін, таке? Моє єстество протестує проти того, що це може бути якийсь бізнесовий ефект. Це щось числове, чиста арифметика. З корінням або в статистиці, або в програмуванні (тобто, як воно все в таблички записується) Але що?
Графіків не покажу, бо, то не можна, таємниця слідства, вотетовотвсьо.
UPDATE: Сам дотумкав. Ефект, насправді, бізнесовий, а я просто не подумав. Ці ікси -- місячні продажі. Розподіл продаж щомісяця має купу локальних максимумів в різних "круглих" числах: пропорційних 10, особливо 20, сотня, півтораста... Цього виявилося достатньо, щоби сумарний розподіл відносноі різниці проріс максимумами в особливо раціональних точках
UPDATE 2: Я тормоз. Круглі числа ні при чому, це банальний ефект постійної ціни на одиницю товару, тому для невеликих кількостей проданих юнітів що дельта, що Х0 в знаменнику, будуть пропорційними цілим числам. Дякую
ichthuss за відповідь.
(X1 - X0) / (X0 + ε)
Епсилон там для того, аби не було ділення на нуль. (Десь 20% кожного з іксів -- нулі, але пари, де нулями є і X0, і X1, в популяцію не входять). Гістограма, як ви розумієте, тягнеться від -1 до безмежної асимптоти. І ось що я спостерігаю, і що мені абсолютно незрозуміло, звідки таке береться:
- Гістограма очікувано має максимума в нулі, плюс, великий пік в мінус одиниці, це ясно
- Але, крім того, є дуже чітко проявлені максимуми в 1, 2, 3, 4, ...
- Більше того, менш чітко проявлені, але видимі максимуми в 0.5, 1.5, 2.5 ...
- То було з позитивного боку, а зліва від нуля там є конкретні піки такі на 1/2, 2/3, 3/4, 4/5...
Що це, блін, таке? Моє єстество протестує проти того, що це може бути якийсь бізнесовий ефект. Це щось числове, чиста арифметика. З корінням або в статистиці, або в програмуванні (тобто, як воно все в таблички записується) Але що?
Графіків не покажу, бо, то не можна, таємниця слідства, вотетовотвсьо.
UPDATE: Сам дотумкав. Ефект, насправді, бізнесовий, а я просто не подумав. Ці ікси -- місячні продажі. Розподіл продаж щомісяця має купу локальних максимумів в різних "круглих" числах: пропорційних 10, особливо 20, сотня, півтораста... Цього виявилося достатньо, щоби сумарний розподіл відносноі різниці проріс максимумами в особливо раціональних точках
UPDATE 2: Я тормоз. Круглі числа ні при чому, це банальний ефект постійної ціни на одиницю товару, тому для невеликих кількостей проданих юнітів що дельта, що Х0 в знаменнику, будуть пропорційними цілим числам. Дякую
![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
no subject
Так є, причому, масштабно є.
Деталі можу хіба приватом, але загальна ідея така: кожен з наших суперменів в рожевих трусах має трошки інакший лістінґ. Десь пропущений в описі матеріал трусів, десь не всі розміри, десь в бренді помилка, десь бренд не написаний, і т. п. Далі: покупці у нас по всій країні, від Аляски до Флориди, і по всій країні же -- проміжні склади, звідки той товар можуть привезти. Рідко яке наіменування товару представлене у всіх fullfilment центрах, і майже ніхто і ніколи не має повного набору розмірів/стилів у всіх центрах одночасно. Тобто, залежно від того, коли і де купуватимуть наступного супермена, алгоритм пошуку враховуватиме близькість адреси покупця і найближчого складу, і вибиратиме інший товар.
Але це все "об'єктивні" причини, а є ще ціла жменя суб'єктивних: кінцевий продавець може доплачувати агрегатору, щоби його товари за малу копійку з'являлися в паралельних пошуках, або щоби вони випливали вище, ніж того заслуговують, в прямих пошуках (це два різних види "рекламного продукту" від агрегатора), може використовувати "емейл-капманію" (і вибірка покупців, які купували щось віддалено "подібне" останніми місяцями отримає спам з рекламою суперменів). Ще можна запустити кампанію тимчасової знижки, яка строго регулюється агрегатором, але існує. Оскільки через агрегатор продають не лише великі бізнеси, де всякі такі суб'єктивні штуки робить програма і сигналізує агрегатору через прямі ейпіай-канали, але і сотні тисяч маленьких продавців, які кожну з цих дій виконують шляхом клацання мишкою на вебсайті або тицяння пальцем в телефонний епп, то там чорт ногу вломить. Словом, в таких масштабах все виглядає на порядки інакше, ніж у будь якого одног продавця. Я, до речі, придумав чудову аналогією: це як рахувати продажі по всіх основних українських базарах одночасно: одеський "сьомий кілометр", чернівецька "калинка", київські "озерки", як там в Хмельницькому їх базар називається... Ніби, все те ж саме, але якщо подивитися на кожне конкретний контейнер/кіоск -- дисперсія зашкалить
no subject
no subject
Але то пусте: ми можемо погоджуватися про те, які там механізми і хто пише які алгоритми, в даному випадку то байдуже. Я дивлюся на реальні продажі реальних продавців і бачу, що і наскільки продалося. Якщо факти суперечать механізмам "як воно може бути", то це не значить, що так бути не може, це значить, що може бути і інакше. Ви написали: "Відносна зміна продажів між місяцями, насправді досить мала в стабільному світі" Так от, або в США останній рік стабільно нестабільний, або ми по-різному розуміємо, що таке "мала відносна зміна" Серед усіх наіменувань (так, як я їх визначив: магазин плюс артикул) товарів, у вікно плюс-мінус 25% від минулого місяця на наступний місяць попадає лише кожен сьомий, рівно 15%. Якщо відсікти геть дрібні товари з минуломісячними продажами менше $10, то виходить більше, 21%
А вже які там алгоритми вибору, хто їх писав, і як воно все працює -- хай буде по вашому. .
no subject
Та ви вже самі себе заплутали. Лише вчора говорили, що ви дивитесь в статистику ДО ТОГО як продавець щось побачив, отже продажу ще не було.
Це просто несолідно, якось визначиться, ви за розумних чи за красивих.
Факти механизмам не суперечать. Є штук 5 статистичних розподілень, на всі випадки життя, але графіки красиво виглядають лише коли вибірка досить велика і коли нема спотворень розподілення алгоритмом чи ще чимось.
Якщо ж принципово вибирається якась маленька вибірка, це довгий хвіст, там все що завгодно може бути.
І я вже навів приклади спотворюючих механізмів. Фактично, якщо використати якісь технології витягування даних з шумів, то ви побачите оті механізми збільшеними.
no subject
???
Ми переловлюємо сигнал до того, як його побчив продавець. "отже продажу не було" -- це уже домисли. Чого б вон було статистикою продажів, якщо подажу не було? Згадайте, до чого це була відповідь: до того, що продавці підшаманюють звітність. От я і пишу: ми знаємо про продаж раніше, ніж продавець, він звітність отримує від нас, або у себе в статиці на нашому порталі, або, для великих продавців, на власному сервері, який цю інформацію отримав від нас через відповідні API -- швидко, може, навіть, менше секунди, але за визначенням пізніше за нас.Тому, що би там продавці зі звітністю не шаманили, ми знаємо правду.
Словом, тойво, не треба придумувати свої інтерпретації і з ними ж боротися, це називається "опудало"
При чому тут п'ять розподілів на всі випадки життя. Там все не від розподілів залежить, мені ichtuss мусив у це пальцем ткнути, бо вчора не доходило, але спотворюючі механізми тут ні при чому. Банальний наслідок того, що значна частина найменувань має продажі в одиницях штук на місяць, от і вся загадка. Я вчора пригальмував, але, дивлячись на вас -- не я один :)
no subject
Може ви й бугалтерію за його здаєте і податки сплачуєте?
> швидко, може, навіть, менше секунди, але за визначенням пізніше за нас
Якщо ви за його звітність в податкову подаєте, то я б погодився. То подаєте? Чи ви тільки з оцих цифр висновки робите?
no subject
Якби я міг сказати, де саме я працюю, даючи більше конкретики, було би простіше, але вже дав достатньо натяків, яка це фірма, але прямим текстом сказати не можу, бо, буду щирий, побоююся. Якщо вам здається, що я тут щось напридумав чи перекрутив -- пропоную відкласти сварку на після перемоги, бо краще на рівні натяків я розказати не вмію, а коли на мене несправедливо погано думають -- воно забирає душевні сили. Краще я ті душевні сили потрачу на щось корисне для всіх нас
no subject
З чого ви вирішили що хтось на вас погано думає?
Все що ви показали, абсолютно нормальна поведінка людини що боїться. Інше питання, що це норма для совка, аж так боятись, в світі такого нема, але ок.
І можете не виправдовуватись, маєте повне право просто сказати що не можете надати подробиць, цього абсолютно достатньо.
no subject
Я уже якось писав, як не в постах, то в коментах, що моє нинішнє оточення в плані комбінації ідеологізації і контролю за всім і всіма, відчувається, як совок, я його добре застав, незалежність уже в університеті зустрів. З задоволенням би кинув це місце і поглядаю набік, але поки що терплю з меркантильних причин.