Проблемы, возникающие в процессе поиска
Одна из проблем является чисто методологической. Для проведения эффективного поиска мы заинтересованы в одновременном решении двух противоположных задач:
|
увеличение охвата с целью извлечения максимального количества значимой информации; |
|
уменьшение охвата с целью минимизации шумовой информации. |
Нетрудно видеть, что одновременно осуществить это довольно сложно, хотя зачастую все-таки возможно. Один из методов, если поисковая машина позволяет, - это введение явных ограничений (запрещенных слов). Другой состоит в правильном формировании запросов, в частности, в предпочтении нескольких конкретизированных запросов одному общему. К сожалению, весьма ограниченный входной язык большинства машин не оставляет особенного простора для творчества в этом направлении. Другая проблема - многовариантность человеческого языка. Если в английском языке некоторые слова имеют множество различных значений, то русский отличается богатством морфологических вариаций слов, а для полноты поиска необходимо учитывать еще и синонимы.Часто в области российского Интернета возникают чисто технические трудности из-за различных кодировок информации. Российские поисковые машины распознают кодировки пользователя и искомого сайта, но совместить их удается не всегда.
Еще одна особенность русскоязычной части сети - ее нестабильность. Постоянно изменяются адреса и структура сайтов, они появляются и исчезают, и поисковые машины не успевают обновлять свои базы индексированных данных, поэтому значительная часть списка документов, выданного вам машиной, может оказаться недоступной. Появление в сентябре 1997 г. системы Яndex-Web, обновляющей свои данные раз в неделю, обозначило качественный скачок вперед в решении этой проблемы.
|