Кто есть кто в Иране (автоматический справочник)

04 апреля 2006
Миллион портретов на Яндекс.Новостях

Интернет, 4 апреля 2006 года -- Яндекс открыл доступ к справочной информации о людях, упоминаемых в российских СМИ. Теперь при поиске в Яндекс.Новостях пользователи видят ссылки на «пресс-портреты» тех, чьи имена более всего соответствуют заданному запросу.

Пресс-портреты создаются автоматически специальной компьютерной программой; исходным материалом служат сообщения СМИ.

Каждый пресс-портрет содержит опубликованную в СМИ краткую информацию о человеке: сведения о местах работы и должностях, прямую речь и высказывания третьих лиц. Все сведения о персоналиях сопровождаются фрагментами документов, из которых они были извлечены; это позволяет быстро понять контекст и достоверность информации.

По сути, пресс-портрет — это еще один вариант страницы результатов поиска по Яндекс.Новостям. Искать людей можно не только по фамилии (например, «Махмуд Ахмадинеджад» или «Голамреза Ансари»), но и по названию организации - например, «Верховный Совет национальной безопасности Ирана», «Министерство нефти ИРИ» или «Организация по атомной энергии Ирана») — в этом случае будут найдены все, кто, по сведениям СМИ, имеет или имел к ней отношение.

«В прошлом году на страницах службы появились "Новости в лицах" — рейтинги наиболее популярных персон, автоматически формируемые для каждого сюжета, рубрики или результатов поиска. Сегодня же мы начали применять технологии, которые позволяют не только определить, о ком идет речь в сюжете, но и дать справку по каждому участнику событий, — говорит Татьяна Платонова, руководитель службы Яндекс.Новости — Пресс-портреты особенно полезны, когда СМИ пишут о тех, кто неизвестен широкой аудитории. Теперь за считанные секунды пользователь сможет разобраться, кто есть кто».

Новый сервис основан на уникальной технологии, принадлежащей компании «Яндекс». И извлечение фактов из текста, и группировка их в пресс-портрет (то есть определение, какие факты относятся к одному и тому же лицу) делается автоматически, без участия человека.

«Впервые в России технология извлечения фактов (fact extraction) внедрена на массовом веб-сервисе и обрабатывает большие текстовые массивы. Назначение этой технологии — определять тождество различных обозначений одного объекта и различать объекты с одинаковыми именами, — говорит Лев Гершензон, ведущий разработчик компании "Яндекс". — Мы научились автоматически связывать два типа объектов — людей и организации.

Несмотря на то, что сейчас мы получили важный результат, информация о персонах может оказаться неполной и неточной*), ведь пресс-портреты составляются компьютерной программой. Мы планируем дорабатывать технологию и с благодарностью примем любые отклики и предложения по повышению качества сервиса».

С сегодняшнего дня Яндекс.Новости являются агрегатором не только новостной, но и справочной информации. Справочная часть службы Яндекс.Новости состоит более чем из 1 млн. пресс-портретов, 30 тыс. из которых обновляется ежедневно.

Новостная служба Яндекса была открыта шесть лет назад, поэтому большая часть пресс-портретов создана на основе анализа сообщений СМИ с 2000 года; в настоящее время к службе подключаются архивы новостных источников за предыдущие годы, что повышает полноту и точность сервиса. Всего в базе Яндекс.Новостей на сегодняшний день хранится более 9 млн информационных сообщений от более 1000 источников.

Подробнее о технологии (http://news.yandex.ru/people-search-tech.html).

---------
*) Это точно. Сразу же бросаются в глаза такие "недостатки" методики, как, например, группировка всех "президентов" страны (вне зависимости от срока его пребывания на этом посту). Так, к примеру, Мохаммад Хатами будет обозначен, как "Иран, президент", точно так же, как и нынешний руководитель ИРИ Махмуд Ахмадинежад... Но для знающих людей это не будет серьёзным препятствием.

Зато можно будет очень быстро получить необходимую справку по нужной персоне. Думается, что в первую очередь это высоко оценят работники СМИ и лица, готовящие речи и документы...

PS: Кстати, для "Ирана" в справочнике приводятся 769 "пресс-портретов" (фактически, немного меньше, с учётом повторов и вариантов написания фамилий).

Яндекс.Новости

Мнение автора не обязательно совпадает с мнением редакции.
Обнаружили ошибку? Пожалуйста, выделите её и нажмите Ctrl+Enter


    Комментарии

Прокомментируйте новость или высказывание

Постоянный адрес новости:

Поиск

Подписка


Главный редактор Иран.ру
Пишите в
редакцию ИА «Иран.ру»

info@iran.ru

Page load: 0.03493 sec