Поиск Яндекса: От сложностей русского языка до развития искусственного интеллекта

Вся наша жизнь состоит и начинается с поиска: смысла жизни, предназначения, хобби и так далее до бесконечности. Яндекс решил развиваться именно с поиска. Если говорить о старте Яндекса как поисковой системы, то стоит отметить, что русский язык входит в тройку самых сложных языков мира, и запрос может иметь множество синонимов, это раз. Два — это возможность совершения людьми опечатки при наборе текста. И три — человек не всегда четко понимает, что именно он ищет, не всегда знает точную формулировку запроса. Но во всех случаях поиск Яндекса не может ничего не выдать, и предлагает то, что с вероятностью 99.9% должно ответить на запрос. Директор по развитию технологий искусственного интеллекта «Яндекс» поразил статистикой, что в мире чуть более 10 стран с собственной космической программой, и только 5 стран, у которых есть своя поисковая система. О технологиях работы контекстной рекламы, как Яндекс перешел в офлайн, и о том, как в целом развивается компания, смотрите в нашем интервью.

NaNК

Комментарии

Поделитесь своими мыслями, используя поле для комментариев выше.

Конспект

Современное поколение уже родилось в эру существования Яндекса, и для многих это огромная компания, приложение, в котором есть практически все. Тем не менее, эпоха Яндекс началась с поиска.

Александр Крайнов рассказывает:

Вообще мы часто говорим, что все начинается с поиска, поэтому поиск и был системообразующим для Яндекса и остается довольно важной частью компании. Что касается сложности создания, то есть пример — мы его любим приводить. Есть около 10 стран, у которых есть своя космическая программа. А вот стран, у которых есть своя большая поисковая система, у которой хотя бы 10% рынка, в мире всего пять. И Россия одна из них. И получается, что сделать поиск — это сложнее, чем сделать свою космическую программу.

Поиск и поисковой индекс

Спикер объясняет, как работает система поиска:

  1. Поиск работает так, что для него слова из запроса — это такие ключи, и для к
аждого ключа, для каждого слова на любом языке есть список страниц, которые это слово содержат. Поисковый индекс — это все слова на всех языках и список страниц, которые это слово содержат. 
  • Дальше подключаются сложные алгоритмы ранжирования — как из этого выбрать лучшее. 
  • После начинается расширение поисковых запросов. Мы вводим запрос, и есть множество синонимов для каждого слова. Вся информация хранится в нормализованном виде, и в ходе поиска запрос обогащается синонимами, расширяется, может переводиться на другой язык и пройти множество преобразований.
  • Мы накапливаем статистику и знаем, как люди обычно опечатываются, и подставляем те слова, которые должны быть, или то, что пользователь, скорее всего, имел в виду.
  • С помощью нейросетей сразу запрос преобразуется в цифровой формат, далее идет поиск соответствия запроса и результата уже сразу в цифровом виде, в неком семантическом пространстве, и преобразование в это пространство учитывает всю возможную морфологию языка. 
  • Александр Крайнов подчеркивает:

    Контекстная реклама — это способ указать, что действительно есть товар или услуга вот на такой запрос. Прелесть этой рекламы в том, что она очень точечная, она попадает в конкретного человека, в конкретный период времени.

    Для того, чтобы сервис работал, надо сделать поисковый индекс. Фактически, нужно скачать себе весь интернет, изготовить из него такой индекс, а чтобы он быстро отвечал, он должен лежать в оперативной памяти. Для этого строятся огромные дата-центры, они работают таким образом, что, если один из них полностью отключается, то все должно продолжать работать. И вот такой работы с облачной инфраструктурой в стране больше ни у кого нет. Сейчас облако – это отдельный онлайн-сервис, который и для задач машинного обучения, и для хранения данных, и для чего угодно.

    Технология машинного обучения

    Спикер утверждает, что технология машинного обучения — это хороший инструмент, который позволяет сделать работу человека более эффективной и более совершенной. Яндекс — это храм машинного обучения. В поиске сейчас самое важное — ранжировать, сейчас надо не просто найти сайты, а выбрать среди них тот, который подходит лучше всего.  Ранжирование — это невероятно сложная вещь. Яндекс весь состоит из технологий машинного обучения. Применение технологий машинного обучения позволит выявить закономерности и найти новые правила и принципы принятия решений, которые очень серьезно изменят нашу жизнь к лучшему. 

    Яндекс — это история про большие данные. Навигатор, карты, большой объем данных, информации, хранения этих данных.