Watch videos with subtitles in your language, upload your videos, create your own subtitles! Click here to learn more on "how to Dotsub"

From the Labs: Winning the Netflix Prize (AT&T Tech Channel)

0 (0 Likes / 0 Dislikes)
Никто не мог предположить, что транзисторы будут иметь настолько сильное влияние Общение через спутники... Помощь на расстоянии... Пожалуйста, введите пароль... Что такого особенного в Napoleon Dynamite? Для исследователей из лаборатории AT&T в гонке за призом от Нетфликс - это была задача на миллион долларов "В действительности, всё, что вы делаете на сайте Нетфликса, все ваши действия как клиента Нетфликса могут быть сведены к некоторой форме данных." Эти данные используются для создания мат. моделей или алгоритма, помогающего NetFlix предсказать, какими именно фильмами вы насладитесь больше всего. Чем больше данных веб-компании по аренде DVD соберут о вас тем точнее алгоритм предскажет ваши предпочтения. "Вы любите не только Энни Холл, но и фильмы с Вуди Алланом, которые сделаны в 70-х, а не в 80-х" Система основана на совместной фильтрации, подставляя предпочтения пользователя относительно конкретного продукта в математическое уравнение. Это же уравнение даёт потом рекоммендации для других продуктов, которые могут понравиться пользователю. В 2006 веб-компания по аренде DVD предложила приз в миллион долларов тому человеку или группе, который создаст модель и, используя данные компании, даст улучшение в 10% по сравнению с CineMatch - текущей системой NetFlix. Крис Волински и Роберт Белл, исследователи из лаборатории AT&T были среди тысяч, принявших этот вызов. Вместе со своим бывшим коллегой по AT&T Ехудой Корреном, они сформировали команду KorBell, позже известную как BellKor. "Мы эксперты в работе с большими наборами данных и построениями моделей. Мы работаем более 15 лет, проводя анализ данных в AT&T, чьи наборы данных одни из самых больших в мире. Мы занимались такими вещами, как алгоритмы выявления мошенничества и исследование аномалий в сетях." Вооружившись огромным набором данных с более чем 100 миллионов рейтингов более чем 18 тысяч фильмов от более 480 тысяч анонимных пользователей NetFlix команда BellKor приступает к делу. Сначала они проанализировали данные. "Сколько людей оценивают фильмы, сколько фильмов они оценивают более одного раза (как оказалось, у каждого пользователя на каждый фильм может быть только одна оценка, что хорошо)." Потом они начинают искать шаблоны в данных и составлять модели, основанные на алгоритмах. "Мы как бы взяли всё, что мы знали об экспертизе с помощью моделей и пытались пробовать всё. Нет правил касательно того, что можно пробовать, поэтому мы пробовали целую кучу разных техник." Участники могут предлагать свои результаты только раз в день. Точность их моделей тестируется на нескольких последних рейтингах каждого пользователя. Текущая турнирная таблица выставляется онлайн. Сначала казалось, что соревнование закончится быстро. "В первые шесть недель большинство ведущих команд преодолели пол пути - 5% из 10 необходимых для выигрыша миллиона долларов." Такой ранний успех обусловлен применением техники, которая называется Сингулярное разложение (SVD). Метод, который позволяет организовать огромные массивы данных для анализа. "Что делает SVD - он характеризует каждый фильм и каждого пользователя вектором, в нашем случае, двухмерного пространства. Предположим, что в нашем простренстве по горизонтали мы располагаем фильмы от "девчачьих" до "мачо" (слева направо), а по вертикали - от серьёзных до комедийных (сверху вниз). Так, в левом верхнем углу у нас будет фильм "Цветы лиловые полей" - девчачий и драмматический, а в противоположном правом нижнем - "Тупой и ещё тупее". Идея использовать SVD пришла оттуда, откуда её совсем не ждали - от одного из участников другого соревнования NetFlix, который попробовал её и поделился своей ценной находкой. "Участник команды под названием "Simon Funk" опубликовал запись в своём блоге, о том, что он сделал, причём не просто описал, а дал достаточное количество деталей, так что каждый мог закодить его и попробовать самостоятельно." Funk даже написал в своём посте "Попробуйте это дома". Те, кто последовали этому подходу получили ранние результаты, но по окончанию первого года победителем оказалась команда BellKor. Они получили приз в 50 тысяч долларов за прогресс в 8.43% улучшения по сравнению с CineMatch - пока что, лучший результат. Через год команда получает ещё один приз в 50 тысяч долларов. Но прогресс уже не такой быстрый, они достигли улучшения в 9.44% по сравнению с CineMatch, поэтому BellKor больше не работает самостоятельно. Чтобы получить годовое улучшение, команда соединяет силы с другим участником. "Стало довольно очевидно, что использование разных моделей и усреднение их результатов - это лучший результат на пути к наиболее точным результатам. Мы поняли, что для достижения 10% барьера, необходимо сотрудничать с другой командой." Чем ближе участники подходят к отметке в 10%, тем сложнее становятся модели. Некоторые модели способны дать промежуточный рост за счёт учёта некоторых нюансов. Например, в какой день недели, пользователи оценивали фильмы или сколько времени прошло между просмотром и оценкой фильма. Но до сих пор остаётся одна проблема, которую не решила ни одна модель - проблема с фильмом "Наполеон Динамит". "Есть некоторые фильмы, у которых довольно полярные рейтинги. Например, очень спорные фильмы как Фаренгейт 9/11, Страсть Христа имеют очень сильное расхождение в рейтинге: или 1 звезда, или 5. Одним из таких фильмов стал "Наполеон Динамит": люди либо обожали этот фильм, либо ненавидели. Было много рейтингов 1 и 5 и для этого конкретного фильма было очень трудно понять базируясь на других фильмах, оцененных людьми, понравится он им или нет. Этот фильм имел самое большую частоту ошибок в нашей модели. Мы боролись с этим долгое время. Мы до сих пор боремся с ним." Несмотря на эту борьбу 21 сентября 2009 BellKor празднует победу с улучшением в 10.06% по сравнению с CineMatch. Так комбинация уже трёх комманд, называющая себя "Прагматический хаос BellKor", выиграла гранд при, получив ответ, взяв среднее из 800 алгоримтов (достаточно, чтобы заполнить 150-страничную книгу). "Я не думаю, что когда мы начинали, кто-то ожидал, что будет именно такой путь к победе на соревновании." Сейчас Боб и Крис используют уроки полученные во время соревнования NetFlix в своих исследованиях на проектах, как этот, для пользователей AT&T. И это делает их босса очень счастливым. "Это позволило нам взять хороший старт. Мы выучили много о работе в команде, о технологиях, которые мы будем использовать в AT&T и не только. И это было интересно и мы победили." Крутая вещь касательно победы - то, что AT&T инвестировало деньги в поддержку организаций, которые способствуют развитию научного образования для детей. Уже существуют организации, которые имеют связи с исследователями AT&T, которые тратят много сил и энергии на поддержку таких проектов. "Это был хороший опыт для нашей организации и прекрасный способ использовать этот приз, чтобы заинтересовать студентов делать что-то и поддерживать техническое образование." И что теперь? Они могут повторить свой успех снова! NetFlix анонсировали второе соревнование и второй приз: "NetFlix Prize 2. The Sequel". "Мы пока что не можем сказать ничего наверняка, но это может быть довольно интересным соревнованием".

Video Details

Duration: 8 minutes and 22 seconds
Country: United States
Language: English
Genre: None
Views: 1,216
Posted by: dkalpakchi on Feb 4, 2015

Відео з каналу AT&T із українськими субтитрами

Caption and Translate

    Sign In/Register for Dotsub to translate this video.