Первая страница
Наша команда
Контакты
О нас

    Главная страница


Лабораторная работа №3 Для того, чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить ее пользователей удобными средствами поиска необходимых им данных, были созданы поисковые системы. Поисковые системы




Скачать 452.17 Kb.
страница1/7
Дата29.06.2017
Размер452.17 Kb.
ТипЛабораторная работа
  1   2   3   4   5   6   7
Лабораторная работа № 3

Для того, чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить ее пользователей удобными средствами поиска необходимых им данных, были созданы поисковые системы.



Поисковые системы

Поисковые системы обычно состоят из трех компонент:



  • агент (паук или кроулер), который перемещается по Сети и собирает информацию;

  • база данных, которая содержит всю информацию, собираемую пауками;

  • поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

Работа механизмов поиска

Средства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как собирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют ссылки к ресурсам типа баз данных WAIS; другие проинструктированы что нужно просматривать прежде всего наиболее популярные страницы.



  • Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать сайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

  • Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

  • Кроулеры просматривают заголовки и возвращают только первую ссылку.

  • Роботы могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:


  1. Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).

  2. Тэги, в которых эти слова располагаются.

  3. Местоположение искомых слов в документе.

  4. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, HotBot).

  1. Время - как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.

  2. Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.



Сравнительный обзор поисковых систем

Lycos. В Lycos используется следующий механизм индексации:

  • слова в заголовке имеют <span style="hover:cursor;text-decoration:underline;" title='Вы́сший - 1. превосх. к высокий во 2, 3, 4 и 5 знач. Высшее звание. Товары вывшего качества. Высший сорт. 2. Самый главный (в социальной или административной иерархии; офиц.). Высшее командование. Высшее начальство. Высшие инстанции суда. 3. сравн. к высокий ( устар. ). Каждый раз он переходил в высший класс с наградой. 4. Аристократический ( устар. ). Высший круг. Высшее общество. Высший тон. 5. Следующий за средним (в системе образования; пед.). Высшее образование. Высшая школа. ❖ В высшей степени - очень, крайне. Высшая мера наказания (офиц.) - смертная казнь. #ushakov'>высший</span> приоритет; <br /><li> <br />слова в начале страницы; <br /><li> <br />слова в ссылках; <br /><li> <br />если в <a href="/rossijskaya-gosudarstvennaya-detskaya-biblioteka.html">его базе индекса есть сайты</a>, ссылка с которых указывает на индексируемый документ - релевантность этого документа возрастает. <br /></ul> <br />Как и <span style="hover:cursor;text-decoration:underline;" title='Большинство́ - Большее число, большая часть. Большинство голосов. Большинство высказалось за предложение оратора. Подавляющее большинство. #ushakov'>большинство</span> систем, Lycos дает возможность применять простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о количестве документов на каждое слово, а позже и список ссылок на формально релевантные документы. В <a href="/volenij-kamenshik.html">списке против каждого документа</a> указывается его мера близости запросу, количество слов из запроса, попавших в документ, и оценочная мера близости, которая может быть <span style="hover:cursor;text-decoration:underline;" title='Бо́льше - . 1. сравн. к большой и к великий в 3 знач. Метр больше аршина. Этот велик, а тот еще больше. 2. сравн. к много . Стали больше платить. Больше внимания физкультуре! 3. В отрицательном предложении - далее, вперед, ант. еще (в утвердительном предложении). Больше не пью водки. Не плачь больше. Его уж больше нет с нами. Больше не буду! (подразумевается: этого делать, так поступать). ❖ Больше чем, больше того - то же, что более чем, более того, см. более . #ushakov'>больше</span> или меньше формально вычисленной. Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая <span style="hover:cursor;text-decoration:underline;" title='Возмо́жность - 1. только ед. отвлеч. сущ. к возможный . Возможность такого решения весьма сомнительна. 2. только ед. То, что можно себе представить, что может осуществиться. Возможность не превращается в действительность автоматически. 3. Удобный случай, благоприятное для чего-нибудь стечение обстоятельств. Представляется возможность поехать на юг. Открылась возможность. Разные возможности. 4. только мн. Средство для осуществления своих интересов. Материальные возможности (денежные средства). Недостаточность плана в сравнении с производственными возможностями. У него большие возможности. ❖ По возможности или по мере возможности (по силе возможности неправ. ), в знач. вводного слова - насколько представляется возможным. #ushakov'>возможность</span> применяется для построения расширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом. Таким образом, видно, что Lycos относится к системе с языком запросов типа "Like this", но намечается его расширение и на другие <a href="/kniga-napisana-po-zakazu-evropejskogo-regionalenogo-byuro-vsem.html">способы организации поисковых предписаний</a>. <br /> <br /><i><b>AltaVista</b></i>. Индексирование в этой системе осуществляется при помощи робота. При этом робот имеет следующие приоритеты: <br /><ul> <li> <br />слова содержащиеся в теге <title> имеют <span style="hover:cursor;text-decoration:underline;" title='Вы́сший - 1. превосх. к высокий во 2, 3, 4 и 5 знач. Высшее звание. Товары вывшего качества. Высший сорт. 2. Самый главный (в социальной или административной иерархии; офиц.). Высшее командование. Высшее начальство. Высшие инстанции суда. 3. сравн. к высокий ( устар. ). Каждый раз он переходил в высший класс с наградой. 4. Аристократический ( устар. ). Высший круг. Высшее общество. Высший тон. 5. Следующий за средним (в системе образования; пед.). Высшее образование. Высшая школа. ❖ В высшей степени - очень, крайне. Высшая мера наказания (офиц.) - смертная казнь. #ushakov'>высший</span> приоритет; ключевые фразы в <Meta> тэгах; <br /><li> <br />ключевые фразы, находящиеся в начале странички; <br /><li> <br />ключевые фразы в ALT - ссылках <br /><li> <br />ключевые фразы по количеству вхождений\присутствия слов\фраз; <br /></ul> <br />Если тэгов на странице нет, использует первые 30 слов, которые индексирует и показывает вместо описания (tag description) <p>Наиболее интересная <span style="hover:cursor;text-decoration:underline;" title='Возмо́жность - 1. только ед. отвлеч. сущ. к возможный . Возможность такого решения весьма сомнительна. 2. только ед. То, что можно себе представить, что может осуществиться. Возможность не превращается в действительность автоматически. 3. Удобный случай, благоприятное для чего-нибудь стечение обстоятельств. Представляется возможность поехать на юг. Открылась возможность. Разные возможности. 4. только мн. Средство для осуществления своих интересов. Материальные возможности (денежные средства). Недостаточность плана в сравнении с производственными возможностями. У него большие возможности. ❖ По возможности или по мере возможности (по силе возможности неправ. ), в знач. вводного слова - насколько представляется возможным. #ushakov'>возможность</span> AltaVista - это расширенный поиск. Здесь стоит сразу оговориться, что, в <a href="/interveyu-po-televideniyu-no-pri-etom-v-otlichie-ot-drugih-pro.html">отличие от многих других систем</a> AltaVista поддерживает одноместный оператор NOT. Кроме этого, имеется еще и оператор NEAR, <span style="hover:cursor;text-decoration:underline;" title='Некоторый (простореч.). Которые даже хотели в окна кидаться (об испугавшихся пассажирах). Зощенко. #ushakov'>который</span> реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет <span style="hover:cursor;text-decoration:underline;" title='До некоторой степени, отчасти. Довольно богатый человек. Она довольно красива. 3. с инф. или с род. В знач. приказания, требования: прекрати, перестань ( разг. ). Довольно шалить! Довольно спорить! Довольно слов! 4. с род., в знач. числ. Немало ( устар. ). Довольно времени прошло. 2. ДОВО́ЛЬНО 2 . нареч. к довольный в 1 знач. #ushakov'>довольно</span> большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово: гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе <a href="/problema-narodnosti-v-duhovnom-nasledii-narodnikov.html">с расширенным булевым поиском</a>. </p> <br /> <br /><i><b>Yahoo</b></i>. Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND либо OR. При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие" слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация <span style="hover:cursor;text-decoration:underline;" title='Имеется, находится в наличности. Есть у тебя деньги? У них есть, что показать. Крикнуть, что есть силы. ❖ Ни на есть - см. ни . Как есть ( разг. ) - совсем. Как есть, ничего не понял. Взял всё, как есть. Так и есть - в самом деле. И есть (в ответе, после повторения соответствующего слова; прост. ) - да, действительно. «- Что это, тобой словно бес овладел? Бес и Есть.» А.Островский . Есть такое дело ( прост. фам. неол.) - хорошо, согласен, пусть будет так. 2. ЕСТЬ 3 , межд. (как предполагают, от англ. yes - да). Ответный возглас на команду, означающий, что она принята к исполнению ( первонач. в морском флоте). #ushakov'>есть</span> наверняка. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем <a href="/adaptirovannaya-rabochaya-programma-razrabotana-dlya-obucheniy.html">с ограниченными возможностями поиска</a>. <br /> <br /><i><b>OpenText</b></i>. Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания <span style="hover:cursor;text-decoration:underline;" title='Бо́льше - . 1. сравн. к большой и к великий в 3 знач. Метр больше аршина. Этот велик, а тот еще больше. 2. сравн. к много . Стали больше платить. Больше внимания физкультуре! 3. В отрицательном предложении - далее, вперед, ант. еще (в утвердительном предложении). Больше не пью водки. Не плачь больше. Его уж больше нет с нами. Больше не буду! (подразумевается: этого делать, так поступать). ❖ Больше чем, больше того - то же, что более чем, более того, см. более . #ushakov'>больше</span> похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно <span style="hover:cursor;text-decoration:underline;" title='Бы́ло - ( без удар. ), частица . употр. при прош. вр. глаголов для обозначения, что действие началось, было предположено, начато, но не совершилось. «На ель ворона взгромоздясь, позавтракать было совсем уж собралась, да призадумалась.» Крылов . #ushakov'>было</span> бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования. <br /> <br /><i><b>Infoseek</b></i>. В этой системе индекс создает робот, но он индексирует не весь сайт, а только указанную страницу. При этом робот имеет такие приоритеты: <br /><ul> <li> <br />слова в <a href="/baskervileskaya-misteriya.html">заголовке </a><title> имеют наивысший приоритет; <br /><li> <br />слова в теге keywords, description и частота вхождений\повторений в самом тексте; <br /><li> <br />при повторении одинаковых слов рядом выбрасывает из индекса <br /><li> <br />Допускает до 1024 символов для тега keywords, 200 символов для тэга description; <br /><li> <br />Если тэги не использовались, индексирует первые 200 слов на странице и использует как описание; <br /></ul> <br />Система Infoseek обладает <span style="hover:cursor;text-decoration:underline;" title='До некоторой степени, отчасти. Довольно богатый человек. Она довольно красива. 3. с инф. или с род. В знач. приказания, требования: прекрати, перестань ( разг. ). Довольно шалить! Довольно спорить! Довольно слов! 4. с род., в знач. числ. Немало ( устар. ). Довольно времени прошло. 2. ДОВО́ЛЬНО 2 . нареч. к довольный в 1 знач. #ushakov'>довольно</span> развитым информационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это <a href="/yurij-ignateevich-muhin-izbavesya-ot-dollarov.html">при помощи специальных знаков</a> " " - термин обязан быть в документе, и "-" - термин должен отсутствовать в документе. Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Имеется <span style="hover:cursor;text-decoration:underline;" title='Возмо́жность - 1. только ед. отвлеч. сущ. к возможный . Возможность такого решения весьма сомнительна. 2. только ед. То, что можно себе представить, что может осуществиться. Возможность не превращается в действительность автоматически. 3. Удобный случай, благоприятное для чего-нибудь стечение обстоятельств. Представляется возможность поехать на юг. Открылась возможность. Разные возможности. 4. только мн. Средство для осуществления своих интересов. Материальные возможности (денежные средства). Недостаточность плана в сравнении с производственными возможностями. У него большие возможности. ❖ По возможности или по мере возможности (по силе возможности неправ. ), в знач. вводного слова - насколько представляется возможным. #ushakov'>возможность</span> указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам <a href="/slovare-terminov-avtokratichnoe-rukovodstvo.html">с элементом взвешивания терминов при</a> поиске. <p> <i><b>WAIS</b></i>. WAIS является одной из наиболее изощренных поисковых систем Internet. В ней не реализованы лишь поиск по нечетким множествам и вероятностный поиск. В отличие от многих поисковых машин, система позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет <span style="hover:cursor;text-decoration:underline;" title='Испо́льзовать - Употребить в какое-нибудь дело, найти применение кому-чему-нибудь с целью извлечения пользы, воспользоваться кем-чем-нибудь для чего-нибудь. «Сейчас нам нужно использовать всех буржуазных специалистов.» Ленин . Использовать отбросы для производства. Использовать в своих интересах темные слухи. Использовать служащих в более нужных местах. Вы увидите, что зарубежная печать использует (буд. вр.) этот случай для травли СССР. Употребление этого глагола в книжн. и газет. языке в знач. несовер. вида стало распространяться гл. обр. в последнее время. Мы видим, что зарубежная печать использует (наст. вр. вр) каждый удобный случай для травли СССР. «Женя Бутлер меня в качестве помощника по фотографической части использует (наст. вр.) пренебрежительно.» Андрей Белый . #ushakov'>использовать</span> усечения терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика" на Internet. </p> <br /> <br /><u><b>Браузер</b></u> - это <a href="/programma-po-matematike-1--4-klass-programma-po-okrujayushemu.html">программа</a>, которая потенциально может оказаться на рабочей станции каждого пользователя интернет. <p>... позволяющего не просто переключать несколько страниц внутри окна браузера, но и предоставляющего полноценное управление окнами отдельных страниц ...</p> <p>Браузер является одним из основных, основополагающих программных продуктов у большинства пользователей персональных компьютеров. Действительно, интернет охватывает все <span style="hover:cursor;text-decoration:underline;" title='Бо́льше - . 1. сравн. к большой и к великий в 3 знач. Метр больше аршина. Этот велик, а тот еще больше. 2. сравн. к много . Стали больше платить. Больше внимания физкультуре! 3. В отрицательном предложении - далее, вперед, ант. еще (в утвердительном предложении). Больше не пью водки. Не плачь больше. Его уж больше нет с нами. Больше не буду! (подразумевается: этого делать, так поступать). ❖ Больше чем, больше того - то же, что более чем, более того, см. более . #ushakov'>больше</span> сфер деятельности человека. Получение свежей информации, загрузка новых программных продуктов, торговля, общение - все это осуществляется с помощью браузера </p> <p>Веб-браузер. </p> <p>Веб-браузер - программа-клиент, предоставляющая пользователю возможности: </p> <p>- навигации и просмотра веб-ресурсов; </p> <p>- скачивания файлов и т.п. <br />Обычно в комплекте с веб-браузерами поставляются почтовые программы, средства работы <a href="/yu-ershov-d-bevz-televizionnoe-proizvodstvo-novostej-tomsk-200.html">с серверами новостей и средства</a> общения в реальном времени. <br />

  1   2   3   4   5   6   7

  • Поисковые системы
  • Работа механизмов поиска
  • Сравнительный обзор поисковых систем Lycos