Простой запрос из множества слов
Яndex позволяет использовать в качестве запроса строку до 250 символов. Для введения простого запроса нужно набрать в строке запроса ключевые слова, разделенные пробелом. Простой запрос подразумевает, что слова связаны логическим оператором ИЛИ, т. е. машина ищет документы, в которых упоминается хотя бы одно из этих слов, и на выходе их ранжирует по количеству найденных слов, их весу, частотным характеристикам, близости в тексте и другим параметрам. Учитывается морфология всех терминов простого запроса.Для составления списка ключевых слов воспользуемся методикой, изложенной в разделе курса "Методы информационного поиска", а в качестве текста-источника возьмем документ из списка предыдущего примера: "Информационные возможности МАРП".Для автоматизации процесса анализа текста можно использовать программу-апплет, расположенную по адресу http://www.dist-cons.ru. Программа вычисляет частоту вхождения каждого слова, отсеивает стоп-слова, но не учитывает морфологию.В результате получим последовательность слов, начало которой выглядит так:
СловоЧастота вхождения |
Ключевые слова |
информация |
11 |
+ |
база |
10 |
+ |
марп |
9 |
+ |
данных |
9 |
+ |
bre |
8 |
|
содержит |
7 |
+ |
предприятий |
7 |
+ |
информацию |
7 |
+ |
стран |
6 |
|
система |
6 |
+ |
поиск |
6 |
|
деятельности |
6 |
+ |
более |
6 |
|
фирм |
5 |
+ |
бюро |
5 |
+ |
ооо |
5 |
|
развития |
4 |
+ |
проекта |
4 |
+ |
продукции |
4 |
+ |
предложения |
4 |
+ |
предложений |
4 |
+ |
информационная |
4 |
+ |
число |
3 |
|
странах |
3 |
|
сотрудничестве |
3 |
|
сети |
3 |
|
соответствии |
3 |
|
россии |
3 |
|
обзор |
3 |
|
новости |
3 |
|
Ограничим диапазон частот от 4 до 11 и выберем ключевые слова в этом диапазоне, как показано в списке. Запишем их последовательно в строке запроса:
информация_база_марп_данных_содержит_предприятий_…_…
(всего 22 слова без учета морфологии)
Запустим машину и в результате получим список из 36935 документов, в котором на первом месте стоит наш документ-источник, что свидетельствует об оптимальности и полноте нашего выбора ключевых слов.Рассмотрим влияние диапазона частот вхождения при выборе ключевых слов на результат поиска.Поместим в запрос только ключевые слова из диапазона частот с 9 до 11:
информация_база_марп_данных
Результат: 72 тысячи документов, текст-источник на 4 месте, степень соответствия 0.990.Ограничимся диапазоном от 4 до 8:
содержит_предприятий_информацию_система_…
Результат: 71098 документов, текст-источник N187 в списке, степень соответствия 0.121.
Вывод: набор ключевых слов из первого диапазона оказался значительно более значимым для данного текста, чем из второго; использование слов второго диапазона позволяет произвести более широкий поиск по тематике текста; применение обоих диапазонов дает оптимальное сочетание широты и избирательности поиска.
|