malyj_gorgan | ще одна задачка

Я тут пару разів писав всякі співбесідні штучки, і вони, o tempora, o, mores, викликали більше інтересу ніж майже будь яка інша тема, крім холіварів про дискримінацію і здорогвий глузд. Що ж, будемо популістами, додаю теґ про співбесіди і пощу ще одну задачку з минулорічних. На неї давали хвилин 5, ну, 10, якщо переписувати код, а не лише критикувати. А потім мені сказали, що лише двоє кандидатів нормально відповіли. (Нас і найняли, гиги.) Враховуючи, що це найперше завдання в довгому процесі відсіяння, навіть цікаво, мо, справді, хороша задачка?Enjoy, значиться...

Let’s say you’re running a query that looks like this:

WITH cte AS ( SELECT DISTINCT t1.x, t2.abc, t2.bcd, t2.cde,t2.def FROM t1 LEFT JOIN t2 ON t1.x = t2.x WHERE t1.y LIKE 'some_string%' AND SUBSTRING(t1.y, 1, 4) = 'some' ORDER BY t1.x ASC, t2.abc DESC ) SELECT COUNT(DISTINCT cte.x) AS num_x, t3.some_date, COUNT(DISTINCT t3.z) FROM cte LEFT JOIN t3 ON cte.x = t3.x WHERE LOWERCASE(t3.x) LIKE '%some_other_string%' AND LOWERCASE(cte.x) NOT LIKE '%yet_another_string%' GROUP BY t3.some_date HAVING t3.some_date > some_start_date AND t3.some_date < some_end_date ORDER BY num_x ASC LIMIT 10

It is taking a really long time, and showing no signs of finishing even after you took a lunch break. You realize that t1, t2 and t3 all have several billion rows each. What would you potentially change to speed up the query, and why?

Flat | Top-Level Comments Only | Expand All

From:

ukurainajin

Тут кодерів багато, гадаю :) Щось зрозуміле.
Мені співбесіду якось розпочали з питання, що таке змінна, і кількох завдань на логіку дитячого рівня. На моє здивування відповіли, що хочуть подивитися, як людина мислить.

Edited Date: 2021-03-19 11:33 pm (UTC)

From:

malyj_gorgan

Це то ясно.
А тут питання чисто на SQL, робота не програмістом, а датазнавцем (Data Scientist), там майже всюди це основне знаряддя праці.
Питання якраз не дуже легке, прочитати чужий код і сказати, де там лажа, для людини, яка лише почала це все вчити, буде нелегко. Це якраз тест на те, чи кандидат реально має той рік чи більше досвіду користування, який обіцяє в своєму резюме.

From:

ppk_ptichkin

>датазнавцем

Как будет по украински "человек, специализирующийся в накручивании хвостов ~~быкам~~ базам данных"?

From:

malyj_gorgan

Якщо "специализирующийся", то Data Analyst :)
А якщо Data Scientіst, то це лише один з необхідних параметрів для роботи. Може 10% обходиться без цього діла, 20% від сили.
Це як для програміста, який щось робить в мережах, знати базовий синтакс Unix shell'а (а Redshift буде аналогом bash'а)

From:

ppk_ptichkin

:)
(из любопытства)

Я SQL не знаю совсем, as in "совсем", но это?
>WHERE t1.y LIKE 'some_string%' AND SUBSTRING(t1.y, 1, 4) = 'some'

и наверное ещё много, но см. выше.

ще одна задачка

Page Summary

Active Entries

Style Credit

Expand Cut Tags