YouTube — феномен нашего времени, ставший неотъемлемой частью человеческой...
YouTube — феномен нашего времени, ставший неотъемлемой частью человеческой культуры. Там есть всё, от шуток с котятками до разностороннего освещения политической повестки практически каждой страны. По этому сайту можно делать кучу высокоуровневой аналитики, опираясь на подвыборку видео. Для того, чтобы такая аналитика была близка к правде, выборка должна быть случайной.
«Ну так чо ты а, выбери случайные видео» — можете сказать вы. А как? и насколько это удачный метод? Ну, если посмотреть на ссылку, то можно заметить, что там есть уникальный код из 11 символов, с буквами и цифрами. Но этот код присваивается случайно — как минимум для того, чтобы нельзя было быстро итерироваться по всем видео прибавляя единицу к номеру. Поэтому не получится просто брать следующий или предыдущий — каждый раз нужно угадывать заново.
Проблема в том, что доля существующих ID из всех возможных ничтожна — примерно 0.0000000180599%. То есть вы можете перебрать миллион ссылок. генерируя цифробуквы случайно, и ни разу не найти видео. Вот уж никогда бы не подумал, что будет так сложно собрать случайную репрезентативную выборку!😳
Вот тут совсем недавно предложили более эффективный способ. Оказывается, в одном поисковом запросе можно:
1) указывать ID видео, а не человекочитаемый текст
2) указывать до 32 ID за раз
3) хоть строчные и прописные буквы влияют на ID, при поиске разницы нет (гугл перебирает за вас).
Получается, одним поисковым запросом можно вытащить результаты по 32768 ID (там может быть 0 реальных видео, тогда поиск ничего не вернёт). И вы не поверите, сейчас это самый эффективный доступный способ (понятно, что внутри гугла все цифры так и так доступны, это для нас, смертных).
А вот тут доступна сводка на основе 25 тысяч видео, выбранных действительно случайно. По оценке, существует «всего» 13.3B видео. Русский язык занимает 6-ое место по популярности (5.6% видео). Медианное видео имеет 0 лайков и комментариев, длится 67 секунд и имеет 40 просмотров.
И в завершение порекомендую пятиминутное видео от Tom Scott про ID'шки ютуба, снятое одним дублем.
«Ну так чо ты а, выбери случайные видео» — можете сказать вы. А как? и насколько это удачный метод? Ну, если посмотреть на ссылку, то можно заметить, что там есть уникальный код из 11 символов, с буквами и цифрами. Но этот код присваивается случайно — как минимум для того, чтобы нельзя было быстро итерироваться по всем видео прибавляя единицу к номеру. Поэтому не получится просто брать следующий или предыдущий — каждый раз нужно угадывать заново.
Проблема в том, что доля существующих ID из всех возможных ничтожна — примерно 0.0000000180599%. То есть вы можете перебрать миллион ссылок. генерируя цифробуквы случайно, и ни разу не найти видео. Вот уж никогда бы не подумал, что будет так сложно собрать случайную репрезентативную выборку!
Вот тут совсем недавно предложили более эффективный способ. Оказывается, в одном поисковом запросе можно:
1) указывать ID видео, а не человекочитаемый текст
2) указывать до 32 ID за раз
3) хоть строчные и прописные буквы влияют на ID, при поиске разницы нет (гугл перебирает за вас).
Получается, одним поисковым запросом можно вытащить результаты по 32768 ID (там может быть 0 реальных видео, тогда поиск ничего не вернёт). И вы не поверите, сейчас это самый эффективный доступный способ (понятно, что внутри гугла все цифры так и так доступны, это для нас, смертных).
А вот тут доступна сводка на основе 25 тысяч видео, выбранных действительно случайно. По оценке, существует «всего» 13.3B видео. Русский язык занимает 6-ое место по популярности (5.6% видео). Медианное видео имеет 0 лайков и комментариев, длится 67 секунд и имеет 40 просмотров.
И в завершение порекомендую пятиминутное видео от Tom Scott про ID'шки ютуба, снятое одним дублем.
Источник: Сиолошная
2023-12-24 19:25:22