--

Фоторобот

Как заставить машину искать образы

«Яндекс» вслед за гигантом Google запустил новый поисковик не по словам, а по картинкам. CBIR (Content-based image retrieval – «Поиск изображений по содержанию») – в просторечии «Сибирь». В «Яндексе» есть правило, которое внедрил гендиректор Аркадий Волож. Он сформулировал это так: не надо браться за разработку продукта, если не сможешь объяснить маме, в чем его необходимость. 

Дмитрий Окрест поделиться:
1 октября 2013
размер текста: aaa

CBIR – это технология компьютерного зрения, которая помогает искать картинки, полностью идентичные с загруженной человеком. Впрочем, важно понимать, что в отличие от поиска по словам, это новшество не будет таким популярным. По-хорошему, сервис по поиску изображений будет необходим не чаще раза в неделю, а то и в месяц. Зачем человечеству поиск по картинкам, «РР» выяснял у Александра Крайнова, руководителя технологий компьютерного зрения компании «Яндекс».

Зачем вообще нужно осваивать «Сибирь»?

Один из частых сценариев: человеку нужно узнать, что за «зверь» на картинке. Или нельзя узнать учёного по фотографии. Другой случай: для презентации вам нужна точно такая же картинка, но в другом качестве. «Сибирь» поможет найти картинку большего разрешения и, что довольно часто требуется, без логотипов.

Технология также может быть полезна, если вы заинтересуетесь фотографией конкретного офисного стула из неизвестного вам каталога. Сервис покажет, на сайтах каких интернет-магазинов опубликован снимок.

Что происходит с картинкой после её загрузки?

Для пользователя всё выглядит просто: заходишь в «Яндекс.Картинки», загружаешь изображение или даешь на него ссылку – решаешь свою задачу. Например, узнаёшь, что или кто на ней изображен. С точки зрения технологий, это очень сложная задача. За считанные доли секунды поисковая машина превращает картинку в набор так называемых «визуальных слов».

«Визуальные слова» – это удобные для поиска численные представления ключевых точек изображения. Что интересно, цвет картинки не имеет значения – технология «видит» черно-белые тона. После этого машина выбирает среди десятков миллиардов картинок интернета те, где встречаются те же самые «визуальные слова». И отбирает идентичные.

Сколько времени потребовалось на разработку «Сибири»?

Сложно подсчитать. Мы запустили проект пару недель назад – 9 сентября. Впрочем, от разговора: «Круто бы сделать такую вещь, а давайте попробуем», – прошло около двух лет. При этом запуску «Сибири» очень помогли предшествующие разработки. Мы используем технологии компьютерного зрения в разных проектах больше пяти лет. Но этот запуск – наиболее сложный с точки зрения технологий.

Есть ли связь между появлением поиска и популярностью соцсетей, где главное сообщение – это картинка?

Прямой связи нет, однако есть довольно много сценариев, когда поиск по похожим картинкам может быть полезен для пользователей социальных сетей. Например, можно проверить, настоящую ли фотографию разместил пользователь на страничке. Если это фотография селебрити, она с большой степенью вероятности найдётся. Другой случай: кто-то опубликовал фотографию достопримечательности, но не указал источник. Поиск по фотографиям поможет найти сайты, где опубликован снимок. В принципе, в будущем возможно захватывать контент «Инстаграма» и «Тумблера». Сложностей в плане технологий здесь нет.

Сейчас актуальна тема «пиратства». Депутаты приняли запрет на распространение видео, на очереди – тексты и аудио, а с помощью технологии можно выявить нарушения авторских прав по изображениям?

Нет, мы можем показать, кто первый опубликовал картинку в интернете. Однако автор мог выложить фотографию в интернет позже других, поэтому очередность – это недостаточная информация. Устанавливать правообладателя по размеру изображения также некорректно – выложить картинку в хорошем качестве может кто угодно.

Где еще используются технологии компьютерного зрения?

Прежде всего, расскажу, где используется в «Яндексе». Для нас, например, интересный опыт был в Турции, когда мы снимали города для «Яндекс.Панорам». Местное законодательство запрещает публикацию лиц и номеров автомобилей в интернете, и нам пришлось разрабатывать свою систему детектирования, что оказалось непростой задачей. Как показывают исследования, мы можем узнать знакомого на очень маленькой картинке – размером всего 14х14 пикселей. При этом ни одно лицо не должно было быть видным на этих «Панорамах». С машинами также была своя специфика. Кроме того, при фотосъемке «Панорам» номера автомобилей располагаются под разными углами, что осложняло задачу.

Стоит понимать, что компьютерное зрение используется в самых разных отраслях, например, в медицинской сфере – рентгенографии. Благодаря машинному анализу изображения можно обнаружить различные патологии. Также этим технологиям нашли применение в геологоразведке и биологии.
 

Постепенно мы будем развивать способности к обобщению, например, находить не просто такую же картинку, а другое изображение, содержащее такой же объект. Например, автомобиль на постере к премьере фильма. В эту сторону сейчас смотрит вся наука и индустрия распознавания
 

Насколько сервис может быть полезен для распознавания лиц?

Детектор лиц используется и в других сервисах компании, например, для фильтра по портретам в «Яндекс.Картинках». Он позволяет оставить в выдаче только лица крупным планом. Или в «Яндекс.Фотках». Там у нас работает не только детектор, но и распознавание лиц. Это помогает пользователям отмечать друзей на изображениях.

Сейчас уже можно оценить, какой отклик у пользователей получил запуск сервиса?

Пока рано обобщать результаты! Сейчас пользователи больше «пробуют» сам сервис – ищут похожие картинки по известным местам, людям. И пока это больше «фан», нежели решение конкретных практических задач.

Постепенно мы будем развивать способности к обобщению, например, находить не просто такую же картинку, а другое изображение, содержащее такой же объект. Например, автомобиль на постере к премьере фильма. В эту сторону сейчас смотрит вся наука и индустрия распознавания.

Можно ли назвать поиск по видео и музыке новым вызовом для компьютерного зрения? По стоп-кадру можно понять, о какой ленте идет речь? Или видеопоиск приведет к нагрузке на сайт, схожей с DDOS-атакой?

Поиск по статичной картинке из видео возможен, но требует больших инфраструктурных затрат. Что касается музыки, мобильное приложение «Яндекс.Музыка» уже умеет искать по фрагменту композиции, но это другая технология.

Весной китайский Baidu анонсировал вслед за американцами запуск технологии наподобие очков Google Glass. По их словам, это гарнитура с LCD-дисплеем, который будет распознавать лица и делать поиск по картинкам. В чем же отличие Google Glass и подобных от «Сибири»?

Проект очков – это не средство распознавания. Это дисплей и камера, изображение с которой через Bluetooth передается на телефон, а с него – на сервер. Потом по той же цепочке обратно.

Многие проекты, занятые поиском изображений, были закрыты из-за маленького фотобанка. Стратегическое преимущество, как я понимаю, – это «Яндекс.Картинки», ими каждый месяц пользуется более 30 миллионов человек. В чем еще уникальность «Сибири», если сравнивать с сервисами конкурирующих компаний – Google и TinEye?

Все-таки не совсем корректно говорить о том, что компании конкурируют между собой, скорее, есть общие глобальные вызовы. С точки зрения пользователя, мы практически ничем не отличаемся. Пользователь загружает интересующую картинку, а поисковая система находит такие же картинки в интернете. Для пользователя заметны разве что отличия в интерфейсах. Основные различия – в используемых технологиях. При этом сравнивать полноту поиска довольно тяжело: какие-то изображения ищет лучше один поисковик, другие – другой.

Baidu, например, меньше находит «наши» картинки. При этом вполне возможно, что Baidu лучше ищет картинки, которые загружают китайские пользователи. Из мировых компаний нельзя не отметить Microsoft и Google – они уделяют компьютерному зрению очень много внимания. При этом компьютерное зрение – это настолько передовая область, что правильнее говорить не о конкуренции, а об одинаково сложных вызовах.
 

См. также:

Денис Крючков: «Безопасной бухты, в которой ты смог бы выворачивать наизнанку свою жизнь, в интернете просто нет». 10 самых авторитетных интернет-гуру

7 вопросов Константину Воронцову - руководителю сервиса «Яндекс.Музыка». О легальной бесплатной музыке в интернете

Пиратом может стать каждый. Интернет-сообщество продолжает критиковать антипиратский закон, но его, похоже, никто не слышит

Вы тут че, самые умные? Эти русские опять стали чемпионами мира по спортивному программированию

×
Понравилась публикация? Вы можете поблагодарить автора.

Авторизуйтесь для оставления комментариев


OpedID
Авторизация РР
E-mail
Пароль
помнить меня
напомнить пароль
Если нет — зарегистрируйтесь
Мы считаем, что общение реальных людей эффективней и интересней мнения анонимных пользователей. Поэтому оставлять комментарии к статьям могут посетители, представившиеся нам и нашим читателям.


Зарегистрироваться
Новости, тренды








все репортажи
reporter@expert.ru, (495) 609-66-74

© 2006—2013 «Русский Репортёр»

Дизайн: Игорь Зеленов (ZOLOTOgroup), Надежда Кузина, Михаил Селезнёв

Программирование: Алексей Горбачев ("Эксперт РА"), верстка: Алла Парфирьева

Пользовательское соглашение