
Простой запрос из множества слов
Яndex позволяет использовать в качестве запроса строку до 250 символов. Для введения простого запроса нужно набрать в строке запроса ключевые слова, разделенные пробелом. Простой запрос подразумевает, что слова связаны логическим оператором ИЛИ, т. е. машина ищет документы, в которых упоминается хотя бы одно из этих слов, и на выходе их ранжирует по количеству найденных слов, их весу, частотным характеристикам, близости в тексте и другим параметрам. Учитывается морфология всех терминов простого запроса.Для составления списка ключевых слов воспользуемся методикой, изложенной в разделе курса "Методы информационного поиска", а в качестве текста-источника возьмем документ из списка предыдущего примера: "Информационные возможности МАРП".Для автоматизации процесса анализа текста можно использовать программу-апплет, расположенную по адресу http://www.dist-cons.ru. Программа вычисляет частоту вхождения каждого слова, отсеивает стоп-слова, но не учитывает морфологию.В результате получим последовательность слов, начало которой выглядит так:
| СловоЧастота вхождения |
Ключевые слова |
| информация |
11 |
+ |
| база |
10 |
+ |
| марп |
9 |
+ |
| данных |
9 |
+ |
| bre |
8 |
|
| содержит |
7 |
+ |
| предприятий |
7 |
+ |
| информацию |
7 |
+ |
| стран |
6 |
|
| система |
6 |
+ |
| поиск |
6 |
|
| деятельности |
6 |
+ |
| более |
6 |
|
| фирм |
5 |
+ |
| бюро |
5 |
+ |
| ооо |
5 |
|
| развития |
4 |
+ |
| проекта |
4 |
+ |
| продукции |
4 |
+ |
| предложения |
4 |
+ |
| предложений |
4 |
+ |
| информационная |
4 |
+ |
| число |
3 |
|
| странах |
3 |
|
| сотрудничестве |
3 |
|
| сети |
3 |
|
| соответствии |
3 |
|
| россии |
3 |
|
| обзор |
3 |
|
| новости |
3 |
|
Ограничим диапазон частот от 4 до 11 и выберем ключевые слова в этом диапазоне, как показано в списке. Запишем их последовательно в строке запроса:
информация_база_марп_данных_содержит_предприятий_…_…
(всего 22 слова без учета морфологии)
Запустим машину и в результате получим список из 36935 документов, в котором на первом месте стоит наш документ-источник, что свидетельствует об оптимальности и полноте нашего выбора ключевых слов.Рассмотрим влияние диапазона частот вхождения при выборе ключевых слов на результат поиска.Поместим в запрос только ключевые слова из диапазона частот с 9 до 11:
информация_база_марп_данных
Результат: 72 тысячи документов, текст-источник на 4 месте, степень соответствия 0.990.Ограничимся диапазоном от 4 до 8:
содержит_предприятий_информацию_система_…
Результат: 71098 документов, текст-источник N187 в списке, степень соответствия 0.121.
Вывод: набор ключевых слов из первого диапазона оказался значительно более значимым для данного текста, чем из второго; использование слов второго диапазона позволяет произвести более широкий поиск по тематике текста; применение обоих диапазонов дает оптимальное сочетание широты и избирательности поиска.
|