Археология Бурятии информационно-справочная система
:
карта сайта
 

Простой запрос из множества слов

Яndex позволяет использовать в качестве запроса строку до 250 символов. Для введения простого запроса нужно набрать в строке запроса ключевые слова, разделенные пробелом. Простой запрос подразумевает, что слова связаны логическим оператором ИЛИ, т. е. машина ищет документы, в которых упоминается хотя бы одно из этих слов, и на выходе их ранжирует по количеству найденных слов, их весу, частотным характеристикам, близости в тексте и другим параметрам. Учитывается морфология всех терминов простого запроса.Для составления списка ключевых слов воспользуемся методикой, изложенной в разделе курса "Методы информационного поиска", а в качестве текста-источника возьмем документ из списка предыдущего примера: "Информационные возможности МАРП".Для автоматизации процесса анализа текста можно использовать программу-апплет, расположенную по адресу http://www.dist-cons.ru. Программа вычисляет частоту вхождения каждого слова, отсеивает стоп-слова, но не учитывает морфологию.В результате получим последовательность слов, начало которой выглядит так:

СловоЧастота вхождения Ключевые слова
информация 11 +
база 10 +
марп 9 +
данных 9 +
bre 8  
содержит 7 +
предприятий 7 +
информацию 7 +
стран 6  
система 6 +
поиск 6  
деятельности 6 +
более 6  
фирм 5 +
бюро 5 +
ооо 5  
развития 4 +
проекта 4 +
продукции 4 +
предложения 4 +
предложений 4 +
информационная 4 +
число 3  
странах 3  
сотрудничестве 3  
сети 3  
соответствии 3  
россии 3  
обзор 3  
новости 3  

Ограничим диапазон частот от 4 до 11 и выберем ключевые слова в этом диапазоне, как показано в списке. Запишем их последовательно в строке запроса:

информация_база_марп_данных_содержит_предприятий_…_…

(всего 22 слова без учета морфологии)

Запустим машину и в результате получим список из 36935 документов, в котором на первом месте стоит наш документ-источник, что свидетельствует об оптимальности и полноте нашего выбора ключевых слов.Рассмотрим влияние диапазона частот вхождения при выборе ключевых слов на результат поиска.Поместим в запрос только ключевые слова из диапазона частот с 9 до 11:

информация_база_марп_данных

Результат: 72 тысячи документов, текст-источник на 4 месте, степень соответствия 0.990.Ограничимся диапазоном от 4 до 8:

содержит_предприятий_информацию_система_…

Результат: 71098 документов, текст-источник N187 в списке, степень соответствия 0.121.

Вывод: набор ключевых слов из первого диапазона оказался значительно более значимым для данного текста, чем из второго; использование слов второго диапазона позволяет произвести более широкий поиск по тематике текста; применение обоих диапазонов дает оптимальное сочетание широты и избирательности поиска.

 
Rambler's Top100
Hosted by uCoz