Сбор информации в сети интернет. Реферат: Методы поиска информации в Интернете. Требования к инструментам поиска

Прошло не так много времени с , а Международный консорциум расследовательской журналистики - ICIJ, на основании этих документов подготовил новый грандиозный "подарок" для коррумпированных политиков. Утечка секретных документов показала, как замешаны в сокрытии доходов в оффшорных зонах президенты больших и малых держав, их родственники и приближенные.

Крупнейшая утечка документов панамской фирмы вскрыла коррупцию мировых лидеров
В документах можно найти фамилии 72 действующих и бывших лидеров государств, включая руководителей, обвиненных в разграблении своих стран. В этом перечне присутствуют фамилии президента Украины Петра Порошенко, короля Саудовской Аравии, президента РФ Путина и его близких друзей , Башара Асада и лидера нации Азербайджана Ильхама Алиева.

Директор ICIJ Джерард Райл (Gerard Ryle) заявил, что "утечка станет самым сильным ударом по оффшорам из всех когдалибо предпринятых". Видимо, кто-то действительно могущественный и осведомленный, нанеся удар по оффшорному бизнесу объявил войну коррупции, сокрытию доходов и отмыванию денег в мировом масштабе.

Почему такой шум из-за панамских документов
Позволю себе напомнить уважаемому читателю, что данный блог не о политике, а об информации и ее поиске на просторах Интернет. В данном случае эти вещи, конечно, переплетаются. Но, эта статья призвана лишь осветить неординарное событие с информационной стороны. Пока стоит шум и бурлит пена вокруг PanamaLeaks, постараемся проанализировать данное событие и его последствия.

Следует сказать, что вывод средств в оффшоры, как способ ухода от налогообложения в своей стране, строго не является криминалом. Да - некрасиво, да - не патриотично, но не криминал. В тех странах где это разрешено. Все так, но если дело касается бизнесменов или актеров, как в случае с футболистом Лионелем Месси или актером-каскадером Джеки Чаном.
(обновляется)

Если найдена информация по интересующему хозяйственному субъекту, можно включить автоматический мониторинг изменений в реестрах, которые касаются данной компании или предпринимателя. Обновленная информация будет приходить на ваш e-mail. Разработчики сервиса не скрывают планов по развитию проекта. Планируется добавление аналитической информации: статьи в СМИ, репутацию субъектов предпринимательства на базе отзывов бизнес-партнеров, финансовый анализ, вероятность банкротства и пр.

Конечно, слишком мало времени еще прошло, чтобы делать какие-то выводы по работе поисковика. Возможно,будут еще проблемы. Предвижу, например, противоречия, связанные с понятием коммерческой тайны. В общем, будем посмотреть, как будет развиваться проект и пожелаем удачи начинанию!

Ссылки по теме:
youcontrol.com.ua в ВКонтакте vk.com/public91977868
в Facebook www.facebook.com/youcontrol.com.ua
E-mail [email protected]
тел. +38 066 189 02 06

Ну и, как обычно, видео, комментарии к которому абсолютно не нужны.

Как отмечает источник, выданная им в свет информация является лишь своего рода пробной порцией. Истинный объем данных, которые находятся в распоряжении журналистов намного больше. Таким образом, слова представителей журналистского консорциума о том, что тихий мир оффшоров ждет настоящее "землетрясение" представляются вполне правдоподобными.

Совсем недавно французские разработчики представили на суд интернет-аудитории новую поисковую систему Qwant (qwant.com). Сами французы называют свой поисковик революционным. По словам соучредителя, Qwant – это одновременно целостная и непредвзятая система. Она предлагает информацию не делая никаких предпочтений в поисковой выдаче.

Разработка Qwant шла в течение двух лет. Как признаются разработчики, главная цель новой поисковой системы – это перегнать и обогнать крупнейший поисковик Google. Итак, запущен qwant.com 13 февраля 2013 г. На данный момент проводится тестирование этой системы, и доступна она в 35 странах на 15 языках.

Среди особенностей нового поиска – это распределение найденных результатов по категориям. Так, можно найти информацию по социальным сетям – это колонка Social или, например, пролистать данные из новостной ленты (Live). Столбец Web выводит самые популярные статьи по вашему запросу, а графа Shopping показывает коммерческую информацию о запрошенном вами продукте.

По самой середине страницы находится столбец Knowledge Graph - там можно получить краткое описание вашего запроса – что это такое, где применяется и т.д – как описание в толковом словаре. Кроме этого, Qwant предлагает вывод изображений и видео по вашему запросу. Здесь также есть большое отличие от Google, Яндекс и прочих поисковиков, где для просмотра изображений по поисковому запросу нужно переходить на специальную вкладку.

Qwant можно назвать одним из наиболее удобных по интерфейсу поисковиков. Он предлагает большое количество настроек для более удобного именно для вас отображения данных. Столбики категорий выдачи можно менять по расположению между собой. К примеру, если вас в первую очередь интересует новостная строка, ее можно передвинуть влево, чтобы она первой бросалась в глаза, а список с коммерческой информацией можно переместить максимально вправо.

Проведем небольшое тестирование поисковика. Допустим, нас интересует творчество Моники Белуччи. Открываем стартовую страницу qwant.com, которая, к слову, по своему дизайну очень напоминает Гугл. Вводим в строку "Моника Белуччи" и видим следующее: в самом верху нам предлагаются видео и фото этой известной актрисы, при этом листать медиа-результаты можно прямо вверху при помощи стрелочки, не переходя на вкладку с фотографиями.

В столбце Web мы видим ссылки на несколько наиболее релевантных сайтов, на которых есть информация о Белуччи – Википедия, КиноПоиск, и т. д. В графе Live – новости об актрисе (последние интервью, фотосессии и т. п.), в графе Social можно просмотреть отзывы людей о Монике Белуччи из социальных сетей, ну а в Shopping мы видим список сайтов, на которых можно приобрести фильмы с Моникой.

Как можно видеть, система направлена на то, чтобы предоставить ответы на любой запрос пользователя, не навязывая пользователю при этом результаты, а предлагая их в нескольких категориях на выбор. Сами создатели Qwant подтверждают, что главный упор делался на то, чтобы улучшить поиск информации по популярным социальным сетям.

Безусловно, облачные технологии являются платными, ведь вы используете сервера третьих лиц. Но такая услуга имеет большое количество преимуществ, в частности:

Клиент должен платить только за тот объем памяти в хранилище, которое он реально использует, а не за аренду сервера;
- клиенту не нужно приобретать, обслуживать и поддерживать собственное оборудование для хранения данных, благодаря чему сильно уменьшаются издержки производства;
- все технические моменты касательно сохранения целостности размещенной информации и резервированию данных проводятся провайдером, который не требует в этом участия клиента.

Чем привлекательны облачные хранилища данных
Вы, наверняка, пользовались файлообменниками, которых и до сих пор существует огромное количество. Там можно было загрузить собственный файл, который становится доступным для любого пользователя, который может найти ваш файл по тегу или названию. В отличие от них, облачная технология обеспечивает полную конфиденциальность. То есть, пользоваться размещенными данными может только владелец информации, и заходит он в систему со своим логином и паролем.

Рядовые пользователи полюбили такие технологии за то, что теперь не нужно засорять компьютер тоннами старой информации – на любом компьютере всегда можно найти несколько гигабайт старой музыки, которая может быть еще когда-нибудь пригодится, коллекцию фильмов, пересмотренных уже несколько раз, документов, которые уже были распечатаны и использованы.

Но, тем не менее, всю эту информацию надо где-то хранить. Облачные сервисы предлагают очистить непосредственно место на компьютере, переслав все ненужные пока данные в "облако". Для этого нужно только быть готовым заплатить некоторую плату и иметь высокоскоростное подключение к Интернету.

Еще одна особенность облачного хранения состоит в том, что получить хранимые данные можно в любой момент и с любого устройства. То есть, если вы отправили "в облако" фильм с компьютера, забрать его обратно к себе на компьютер вы можете с ноутбука, планшета, смартфона… Главное, чтобы при вас был пароль и логин.

Какое облачное хранилище выбрать?
Существует огромное количество облачных сервисов, и они постоянно развиваются, предлагая не только места для хранения данных, но и сопутствующие сервисы. Ниже приведу наиболее популярные из них.

1. Windows Live SkyDrive – предлагает наибольший объем серверного пространства. Зарегистрированные пользователи могут бесплатно хранить в облаке до 25 Гбайт собственной информации. Документы Office, отправленные в облачное хранилище, можно редактировать и открывать прямо в браузере. Синхронизацию можно производить сразу с нескольких компьютерных устройств.

2. DropBox – очень известный сервис среди обычных пользователей, но предлагает только по 2 Гбайта места для каждого своего клиента. Если же пользоваться платным аккаунтом, то можно расширить свои возможности до 20 Гбайт.

Graph Search (далее GS) — так называется недавно анонсированый Цукербергом апдейт Facebook (FB), еще более "социализирующий" первую соцсеть планеты. Бета-релиз нового сервиса запущен пока лишь в англоязычном сегменте Фейсбука. Русскоязычным пользователям соцсети поисковое "ноу-хау" станет доступно позже, но в "лист ожидания" можно внести свой аккаунт уже сейчас.

Технически GS представляет собой систему фильтров, использующих поисковый алгоритм Bing внутри соцсети и позволяющий искать людей, интересные места, музыку (в последующем апдейте), фотографии, релевантные вашим "фейсбуковым" интересам. Для пользователя "социалки" Graph Search будет выглядеть поисковой панелью наверху любой страницы FB.

При введении в поисковую строку GS запроса, результат выдачи собирается на отдельной странице, носящей имя запроса (например: "Мои друзья в Рио"). Планируется поиск по "лайкам", комментариям, медиаконтенту, отметкам фотоснимков. Дата следующего апдейта интеллектуального сервиса пока неизвестна.

Graph Search от Facebook — как это работает?
Старт разработке дало утверждение: для пользователя рекомендация друга значимей оценок тысяч неизвестных людей. Так, с помощью Graph Search можно найти, например:

Фотографии сокурсников до 1995 года;
-любителей сквоша из вашего города;
-фотоснимки друзей, сделанные в Индонезии;
-любимые столичные суши-бары ваших друзей;
-достопримечательности Праги или Парижа, посещенные вашими друзьями.

Повод для беспокойства или ложная тревога?
Первые новости о Graph Search вызвали у пользователей FB и некоторые опасения. Да, интеллектуальный сервис в плане возможностей поиска весьма привлекателен, но многие боятся использования социального поиска маркетинговыми компаниями, спецслужбами, криминальными группировками, госструктурами, недобросовестными владельцами интернет-сервисов для сбора информации. Обоснованы ли опасения?

С одной стороны, Graph Search настройки конфиденциальности не меняет, следовательно "выдать" приватные данные может только пользователям FB, для которых они открыты. С другой — от "информационных утечек" страдают трансконтинентальные корпорации, правительственные интранеты и даже банки. Надежен ли Фейсбук в плане безопасности? Время покажет.

Под маркетинговыми исследованиями понимается систематический сбор, отображение и анализ данных по разным аспектам маркетинговой деятельности.

Маркетинговые исследования -- это функция, которая через информацию связывает маркетологов с рынками, потребителями, конкурентами, со всеми элементами внешней среды маркетинга.

Первичная информация - это информация, которую исследователь самостоятельно получает специально для решения проблемы маркетингового исследования.

Для сбора информации о потребительских предпочтениях и предпочтениях квалифицированных специалистов в области методов сбора, источников информации в Интернете, использован метод опроса.

Опрос заключается в сборе первичной информации путем прямой постановки респондентом вопросов относительно уровня их знаний, отношению к продукту, предпочтений и покупательского поведения.

В зависимости от типов респондентов был выбран опрос, с участием категории населения, профессиональная деятельность которых не связана с предметом анализа.

Маркетинговое исследование проводилось с целью выявление особенностей поиска и использование информации в сети Интернет. Целевой аудиторией данного исследования является население Республики Беларусь до 18 лет и старше. Сбор данных проводится в городе Гомеле.

Для определения необходимого объема выборки была использована формула:

где n - объем выборки;

z - нормированное отклонение, определяемое исходя из выбранного уровня доверительности;

p - найденная вариация для выборки;

e - допустимая ошибка.

Следовательно, объем вариации равен человек.

Любое маркетинговое исследование начинается с определения проблемы. Так, в нашем исследовании, проблема, требующая исследования, будет формулироваться следующим образом: « Как потребители относятся к использованию и поиску информации в сети Интернет?

Поисковые вопросы уточняют отдельные компоненты проблемы, каждый из которых может быть в свою очередь разбит на составляющие -- поисковые вопросы. Поисковые вопросы определяют круг конкретной информации, которая потребуется для решения проблемы исследования. Так, поисковыми вопросами, в нашем исследовании могут выступать следующие: 1. Кто является пользователем поисковых машин»: каков пол, возраст, уровень дохода, социальный статус. 2.Какую поисковую машину выбирают пользователи? 3.Какие сайты чаще всего посещают пользователи? 4.С какой целью пользователи используют Интернет? 5.Какая информация наиболее интересна в Интернете? На основе поисковых вопросов можно сформулировать гипотезы: 1.Пользователи выбираю поисковую машину Google 2. Чаще всего пользователи поисковых машин являются население в возрасте:от19-25лет 3.Пользователи чаще всего посещают развлекательные сайты 4.Большинство пользователей используют Интернет для общения 5. Для пользователей наиболее интересна информация о развлечениях и отдыхе 6.Большинство пользователи находят нужную информацию 7. Пользователи пользуются Интернетом чаще дома

В сентябре - ноябре 2011 года было проведено маркетинговое исследование, в процессе которого было опрошено 150 граждан проживающих в городе Гомеле. Опрашиваемым было предложено заполнить анкету, состоящей из 17 вопросов. Временной период исследования составляет 12 недель с учетом составления анкеты и обработки полученных данных.

Для выявления предпочтений потребителей была разработана анкета (ПРИЛОЖЕНИЕ А).

В процессе маркетингового исследования при опросе респондентов были были выявлены следующие возрастные группы потребителей.(рис 3.1)

Рисунок 3.1- Диаграмма распределения респондентов по возрасту

Как видно из рисунка 3.1 по возрастному критерию использование поисковых систем большую доля составляют респонденты, чей возраст находится в приделах 19-25 лет, что составляет 35%. Граждане, чей возраст находится в приделах 56 лет и старше, составило в процентном отношении 3%. Целевая аудитория с точки зрения их сферы деятельности представлена на рисунке 3.2.

Рисунок 3.2 - Диаграмма распределения респондентов по социальному статусу

Анализируя ответы респондентов, можно сделать вывод, что значительная часть пользователей поисковых систем - это служащие (36 %) и рабочие (30 %). Далее с небольшой разницей следуют студенты(17 %) и предприниматели (15 %).

Полученные данные об уровне дохода населения представлены на рисунке 3.3

Рис. 3.3

Из рисунка 3.3 видно, что большее количество опрошенных респондентов имеют средний уровень дохода, который находится в приделах от 1 000 000 до 2 000 000 рублей, что составило 65,3%. Опрашиваемые с низкий уровень дохода составили 26,3%, а с высоким - 8%.

Рис. 3.4

Из рисунка 3.4 видно, что количество видов и наименований поисковой системы очень велико. Наибольшей популярностью пользуется системы Google.-45%, за тем Mail.ru, потом Yandex-20% и на последнем месте Rambler-10%. в целом существует большое различие в потребительских предпочтениях Google, Mail.ru, Yandex и Rambler наблюдается.

Рис. 3.5

Рисунок 3.5 показывает, что сайты которые посещают чаще других.- это развлекательные-35%, за тем информационные -33%,потом корпоративные-25% и другое-7%

Рис. 3.6

Из рисунка видно, что большинство опрошенных респондентов пользуются поисковыми системами-90,2%

Рис. 3.7

По результатам исследования было выявлено, что для 61 % опрошенных поисковая системв является удобное средство коммуникации, для 34% простой эффективный способ нахождения информации и для 5% что-то другое. Наглядно структура ответов представлена на рисунке 3.7

Рис. 3.8

Данное исследование дало информацию о частоте пользовании интернетом, где потребители которые посещают интернет ежедневно составило-74%, 3-4 раза в неделю- 16% и 3-4 раза в месяц-10 Наглядно структура ответов представлена на рисунке 3.8

Рис. 3.9

Как видно из рисунка 3.9 большинство респондентов пользуются интернетом дома(75%), 16% на работе, 5% в гостях и 4% в интерет кафе.

Рис. 3.10

Рисунок 3.10 показывает, что респонденты чаще всего пользуются интернетом для общения(48%),а так же поиск информаии(26%),просмотр новостей (19%) и почта(7%)

Рис. 3.11

По результатам исследования было выявлено, что для 44 % опрошенных наиболее интересна информация о отдых и развлечение-44%, интернет-42%,бизнес 31%,компьютеры 29%, общество 27%, наука и образование 25%, культура и искусство 20%, медицина и здоровья 19%,дом и семья 18%. Наглядно структура ответов представлена на рисунке 3.11

Рис. 3.12 - Диаграмма распределения респондентов по ответу на вопрос: « Удается ли Вам найти нужную информацию в сети?», %

Из рисунка 3.12 видно, что большее количество опрошенных респондентов всегда находят информацию которую ищут-52%, за тем часто находят -33%, редко -12%, никогда 3%.

Таким образом, в ходе опроса были выявлены следующие предпочтения потребителей: большинство опрошенных предпочитают поисковую систему такую как Google, при этом, использование Mail.ru и не имеет большого разрыва между собой (5,%).

35% выборки чаще всего посещают развлекательные сайты.58% потребителей посещают Интернет ежедневно, но как показал анализ, посещение ежедневно увеличивается. И делая прогноз на будущее роста предвидеться. Поэтому разработчикам поисковых систем нужно:

Совершенствование алгоритмов поиска (или разработку новых стратегий поиска), и на сопутствующие «навороты» типа дизайна и дополнительных сервисов;

Обеспечить разбор запросов (вопросов), заданных естественным языком;

Индексировать поисковики внешние файлы CSS;

Увеличить размер документа или размер той части, что будет проиндексирована

ВВЕДЕНИЕ

Сеть Интернет похожа на огромную мировую библиотеку, имеющую только одно, но существенное отличие: для поиска книги в библиотеке есть каталог, в крайнем случае, можно обратиться к опытному библиотекарю. Полного каталога Интернета не существует. Но, тем не менее, поиск в глобальной компьютерной сети возможен, и это, пожалуй, является одной из наиболее важных его сторон. Для поиска данных в сети используются специальные серверы, информация на которых поддерживается и обновляется практически автоматически.

Сегодня, когда Интернет стал одним из основных источников информации, поиск в Сети приобретает все большую практическую ценность. Но с быстрым увеличением объема доступных данных все более усложняется и сама процедура поиска.

Интернет – это глобальная компьютерная сеть, которая связывает между собой как пользователей компьютерных сетей, так и пользователей ПК. Интернет медленно, но верно становится основным средством корпоративного общения, уступая пока телефону.

В Сети наличествует гигантское количество информационных ресурсов. По некоторым оценкам, число документов превысило 65 млн. и продолжает стремительно расти. Такой объем информации требует правильной организации процесса поиска и применения специальных технических средств, таких как поисковые машины. Простой поиск по достаточно распространенному ключевому слову дает обычно от десятков тысяч до нескольких миллионов ссылок. Очевидно, что работа с таким большим количеством документов практически невозможна, тем более что подавляющая их часть содержит информацию, не относящуюся к делу.

Источники информации в Интернете различаются по способу представления информации, а следовательно, и по методу доступа к ним.

1 СРЕДСТВА ПОИСКА

1.1 Средства поиска файлов

Поиск файла вручную в сложной структуре каталогов ftp-сервера может занять достаточно много времени. Для упрощения и ускорения поиска была разработана поисковая служба Интернета Archie, представляющая собой специальные Archie-сервера, хранящие содержание каталогов анонимных ftp-серверов. При обращении с поисковым запросом на Archie-сервер результатом поиска является список адресов анонимных ftp-серверов, на которых имеется искомый файл.

Но возникает задача отыскать среди множества файлов этого сервера искомый, что достаточно сложно из-за маловыразительных и непонятных имен файлов и каталогов. Для решения этой проблемы используется система Gopher, позволяющая перемещаться по системе контекстных меню, показывающих содержимое фай лов с использованием понятых обозначений. Существует очень много Gopher-серверов, которые содержат архивы данных в виде иерархически структурированных каталогов, упорядоченных по содержанию. Работа с ними очень проста и соответствует работе с обычным отображением файловой системы.

Существует расширение этой системы - Veronica, которое содержит в своей базе данных каталоги всех Gopher-серверов. После ввода поискового запроса Veronicaавтоматически просматривает все Gopher-каталоги на наличие искомой информации и тем самым избавляет от долгого поиска вручную по многим Gopher-серверам.

С таким способом навигации Gopherв определенной степени был предшественником WWW. В настоящее время применение Gopherуменьшается пропорционально росту использования WWW.

1.2 Средства WWW - WorldWideWeb (Всемирная сеть)

В 1993 году была разработана информационно-поисковая система WWW, которая благодаря простоте навигации и доступности открыла информационные источники Интернета неподготовленным пользователям. WWW вызвал бум в сети Интернет, который продолжается по настоящее время, и объемы доступной информации Интернета ежегодно удваиваются.

WWW основывается на принципе гипертекста (уже знакомого читателю), то есть на системе документов, связанных гиперссылками. Гипертекст представляет собой ключевые Слова, особым образом выделенные из обычного текста. Гипертекстовые ссылки отправляют пользователя на другие документы того же сервера либо на другие сервера, которые могут располагаться в любом месте Интернета. Если этот текстовый документ тоже гипертекстовый, то его ссылки позволяют перейти далее на соответствующие документы. Каждая переадресация происходит для пользователя незаметно, так что он может просматривать информационный состав Интернета но содержательному принципу, не заботясь об адресации конкретных компьютеров.

С развитием мультимедийных приложений изначально чисто гипертекстовые документы все больше и больше становятся гипермедийными. Таким образом, WWW-документы могут существовать в любом формате данных: текст, графика, звук/музыка или видеоклип. Ориентация и навигация во Всемирной сети происходят с использованием специальных программ, называемых WWW-браузерами, обеспечивающими пользовательский интерфейс, как, например, NetscapeNavigator или MicrosoftInternetExplorer.

Отправной точкой поиска информации служит, как правило, основная (базовая, домашняя) страница (сайт) информационного ресурса, которой можно достичь, введя соответствующий адрес в браузере (например, http://ncpi.gov.byили www.iparegistr.com). WWW-сайты создаются и обновляются фирмами либо специальными организациями, публикующими информацию и следящими за содержанием своих WWW-страниц. Использование WWW, таким образом, не является пассивным, и каждый пользователь Интернета при помощи специальных программ-редакторов гипертекста может самостоятельно создавать собственные интерактивные WWW-страницы. Это и открыло путь для растущей коммерциализации и расширения Интернета.

В настоящее время вновь создаваемая информация, как правило, изготавливается с учетом необходимости обеспечения WWW-доступа, а более ранние документы постепенно преобразуются под него, однако во всем мире существуют еще миллионы файлов в форм отличных от требований WWW. Для использования этой информации и через WWW в браузеры включены вышеописанные службы Интернета, обеспечивающие доступ к ней (telnet, ftp, Archie, Gopher). Через WWW можно использовать и другие службы Интернета, которые предназначены для общения (eMail, NetNews). Поэтому WWW-браузер стал в настоящее время универсальной коммуникационной программой Интернета.

С появлением WWW-службы и начался бум в сети Интернет. Благодаря этой простой в применении и единой для всех служб пользовательской среде Интернет заинтересовал множество людей и организаций. Оказалось вдруг, что не надо быть специалистом в области Интернета, чтобы пользоваться службами сети. Это можно сравнить с успехом фирмы Microsoft, связанным с выпуском MicrosoftWindows в качестве графической пользовательской оболочки. До появления Windows у каждого DOS-приложения было собственное руководство пользователя и тем самым требовалось отдельно изучать каждое приложение.

2 ОСНОВНЫЕ ПРИЕМЫ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТЕ

2.1 Основные требования к поиску

К результатам поиска предъявляются требования полноты охвата ресурсов, достоверности полученной информации, минимальных затрат времени и максимальная скорость поиска.

Требование полноты охвата ресурсов не нуждается в дополнительных пояснениях, за исключением необходимости использовать при поиске ресурсы не только WWW, но и других служб Интернета.

Достоверность информации, учитывая природу Интернета, становится чрезвычайно важным требованием. Оценка достоверности может производиться как традиционными методами (проверка легальности публикаций на бумажных носителях, получение сведений об организациях и авторах, выяснение действительности их электронных ресурсов и т.п.), так и с Использованием возможностей Интернета (ознакомление с альтернативными источниками информации, сверка фактического материала, установление частоты его использования другими источниками; выяснение статуса документа и рейтинга источника средствами поисковых систем, получение информации о компетентности и статусе автора материала с помощью специальных поисковых сервисов Интернета; анализ отдельных элементов организации сайта с целью оценки квалификации поддерживающих его специалистов и другое).

Время поиска, не считая затрат времени, связанных с техническими характеристиками подключения, в основном зависит от планирования поиска и навыков работы специалиста по поиску с ресурсом выбранного типа. Планирование поиска заключается в определении требуемых для разрешения поискового требования поисковых служб и порядка их применения. Кроме того, многое зависит от навыков и опыта конкретного специалиста по поиску.

Как уже отмечалось, информация в Интернете доступна из источников разного типа. Прежде всего - это WWW-ресурсы (гипертекстовая система, каталоги ресурсов, поисковые машины). Кроме того, это уже известные читателю электронная почта, почтовые роботы, Usenet и другие телеконференции, а также ftp-системы и архивы (с применением Gopher и Veronica). WWW позволяет производить поиск требуемых ресурсов на основе своих гиперсвойств, то есть имеющиеся поисковые системы работают с использованием гиперссылок в автоматическом режиме, не исключая возможности ручного просмотра. В WWW имеется целый ряд поисковых сервисов как общего, так и специализированного назначения.

ВВЕДЕНИЕ

1 СРЕДСТВА ПОИСКА

1.1 Средства поиска файлов

1.2 Средства WWW - WorldWideWeb (Всемирная сеть)

2 ОСНОВНЫЕ ПРИЕМЫ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТЕ

2.1 Основные требования к поиску

Каталоги ресурсов представляют собой базы данных с адресами ресурсов Интернета и самыми разными тематиками. Обычно они имеют иерархическую структуру, привычную для пользователя, и некоторые средства поиска по ней. Эти каталоги в большей своей части обслуживаются специалистами по классификации, то есть предопределяется некоторый субъективный подход к отбору информации, который, с одной стороны, несколько гарантирует достоверность информации, но с другой - предопределяет возможность отсутствия (пропуска) части информации, а также се запоздалое размещение в каталоге.

Поисковые машины - это механизм автоматического построения ссылок (индексов) на различные ресурсы. Поисковые машины могут быть ориентированы на глобальные, специализированные или локальные ресурсы. По сути они являются мощными ИПС, которые с помощью специальных программ-роботов (так называемых "пауков") постоянно осуществляют автоматический поиск требуемой информации в Интернете. Созданные на этой основе специализированные БД обеспечивают поиск информации по запросам пользователей на основе специальных ИПЯ. Правда, охват просматриваемой информации зависит от применяемых алгоритмов и даже для мощных поисковых машин оставляет желать лучшего.

Электронная почта применяется в Интернете и в WWW. Адреса при этом попадают в поисковые системы и доступны поисковым машинам.

Почтовые роботы - это специальные программы, способные отвечать определенными действиями на команды, поступающие им, но электронной почте. Их основное назначение - пересылка данных по запросу в случае, когда те недоступны иным способом, а также как альтернатива работы в режиме online с каким-либо из известных ресурсов, например ftp-архивами. Адрес почтового робота имеет формат электронной почты. При поиске почтовые роботы обычно используются лишь как посредники при получении информации. Иногда приходится сталкиваться с тем, что они оказываются единственным средством получения нужных сведений.

Usenet и другие региональные и специализированные телеконференции представляют собой электронные "доски объявлений", где пользователь размещает свою информацию в одной из тематических групп новостей, передаваемых подписчикам соответствующей тематики. Этот ресурс наиболее значим для быстрого накопления информации, но узкому вопросу, а при поиске - чаще для получения частной, неофициальной информации.

Ресурсы, доступные по telnet, в ряде случаев представляют собой совершенно уникальную информацию, прежде всею по библиотечным каталогам европейских и американских университетов, а также государственных учреждений.

Как уже отмечалось, система файловых архивов ftp имеет достаточно обширные ресурсы ценной информации, до сих пор не переведенной в WWW. Архивы ftp представляют собой в первую очередь источники получения программного обеспечения. Поиск в них может представлять определенный интерес при знании структуры архивов; построения файловых систем, имен файлов и каталогов, содержащих требуемые ресурсы.

2.2 Методика поиска информации в Интернете

Поиск необходимой информации в Интернете можно осуществлять различными способами:

· Поиск с помощью поисковых машин по ключевому слову

· Поиск с помощью классификаторов поисковых машин

· Каталоги и коллекции ссылок (более общие понятия)

· Конференции, чаты

· Страницы ссылок (“Links”) на тематических сайтах (редкие, специализированные вещи)

· Несетевые способы (советы друзей, знакомых; реклама в печатных изданиях)

В начале поиска информации необходимо определить ее тип. Условно можно выделить 4 типа информации.

1 тип - общая (например: история Российской империи),

2 тип - менее общая (например: император Александр II),

3 тип - конкретная (например: реформы Александра II),

4 тип - более конкретная (например: отмена крепостного права).

В зависимости от типа информации определяются и пути поиска.

Информация 1 типа ищется с помощью классификаторов поисковых машин (из российских - рекомендуется Яндекс www.Yandex.ru). Если сразу сайты с требуемой информацией не находятся, то следует просматривать найденные по классификатору каталоги и страницы ссылок (“Links”), которые находятся сайтах подобной тематике. Эти сайты приводятся в классификаторе по теме и найденных каталогах.

Информация 2 типа ищется подобно поиску для 1 типа, но с преимуществом поиска по каталогам и страницам ссылок.

Информация 3 типа - по ключевым словам, которые вводятся в строку поиска поисковых машин, каталогам, страницам ссылок

Информация 4 типа - по подробным данным, которые вводятся в строку поиска. Данные находятся согласно способам поиска изложенных для 2 и 3 типов.

Поиск по 1 типу. Требуемая информация: «История Российской империи».

Заходим в Яндекс - Наука и образование / Общественные науки / История. По описанию темы находим сайт http://rus-hist.on.ufanet.ru.. Если в нем нет необходимой информации, то переходим на страницу ссылок этого сайта. На ней имеются ссылки на каталоги ресурсов: www.history.ru, http://www.lants.tellur.ru/history/index.htm. В них, скорее всего, будут найдены сайты по на заданную тему.

Поиск по 2 типу. Требуемая информация: «Император Александр II».

Поиск осуществляется аналогично предыдущему, но больше внимания уделяется работе с каталогами www.history.ru, http://www.lants.tellur.ru/history/index.htm .

Поиск по 3 типу. Требуемая информация: «Реформы Александра II»

Здесь появляется новый способ поиска - по ключевым словам. Пишем в строке поиска Яндекса «Реформы Александра II». Результат для просмотра - 1790 страниц, которые находятся на 170 сайтах, в число которых входят и каталоги. Для сужения информации можно добавить новые ключевые слова - дополнительные факты в уже найденном подборе сайтов, например: «1860-1870 гг.» и т. д. В других поисковых машинах набирается полностью «Реформы Александра II в 1860-1870 гг.». Для поиска заданной информации можно еще использовать “Links”, которые приводятся на найденных сайтах

2.3 Развитие информационного ресурса

Как и другие информационные технологии, Интернет создают разработчики, но в данном случае в основном это создатели ресурсов (начиная от специалистов, ведущих поддержку hard- и software, дизайнеры, художники, редакторы и самое главное - авторы информационных ресурсов). Естественно, создание ресурсов - не самоцель, ресурсы востребуются пользователями сети, то есть теми же специалистами и потребителями ресурсов, среди которых, как уже отмечалось, появляется новый слой - специалисты по datamining, по поиску информации. Информационные ресурсы Интернета, как, впрочем, и другие, в том числе неэлектронные информационные ресурсы (в частности, средства массовой информации), характеризуются определенными состояниями своей деятельности (рис. 9.3).

Ресурс зарождается в соответствии с потребностями общества и его возможностями (в частности, связанными с уровнем технического и социального состояния общества).

По мере возможности происходит "взросление", становление ресурса (или его исчезновение при полном отсутствии востребованности, то есть исчезновение, возможно, не в физическом смысле - сайт может существовать, а именно в смысле востребованности).

При определенном уровне востребованнности и (в том числе и стараниями авторов сайта) происходит его каталогизация, то есть сведения о ресурсе появляются в различных каталогах, соответствующих типу ресурса.

Индексирование, то есть появление ресурса в индексах поисковых машин, происходит при достижении определенных объемов информационного наполнения и востребованности.

При наличии постоянного роста востребованности происходит и постоянное развитие ресурса, в противном случае ресурс угасает и постепенно исчезает из индексов и каталогов.

2.4 Требования к инструментам поиска

Как отмечалось ранее, чертами, присущими профессиональному поиску, являются его полнота, достоверность и высокая скорость. Наиболее серьезным и нетривиальным фактором, определяющим быстроту достижения цели поиска, оказывается планирование поисковой процедуры. Это требует, с одной стороны, выбора типа ресурсов, которые потенциально способны нести информацию, релевантную поисковой задаче, а с другой - выбора инструментов поиска, обслуживающих соответствующее информационное поле, в зависимости от их предполагаемой результативности. Если говорить о наиболее емком на сегодняшний день с точки зрения информационного наполнения WWW-пространстве, то относительное изобилие его поисковых средств делает решение большинства практических задач многовариантным. Построение оптимальной последовательности применения тех или иных инструментов на каждом этапе поиска и предопределяет его эффективность. Помочь решить проблему выбора может четкое представление о видах, назначении и особенностях работы информационно-поисковых систем (ИПС) Интернета.

Реальными носителями информации о ресурсах, которыми располагает Интернет, являются поисковые машины и каталоги. Информационно-поисковые системы Интернета различаются, но принципу отбора информации, который в той или иной степени присутствует и в сканирующей программе поисковой машины, и в деятельности специалистов, производящих каталогизацию. Как правило, различают два основных показателя: пространственный масштаб системы и ее специализация.

При формировании информационного массива поисковая система может следить за обновлением заранее заданного набора документов, каталогов или конечного числа узлов, отобранных по некоторому принципу. Такие системы, реализованные в Интернете, несколько условно можно назвать локальным и. Глобальные поисковые системы в отличие от локальных решают более трудоемкую задачу - по возможности наиболее полный охват ресурсов всего информационно» поля Интернета (WWW или другого), которое они обслуживают. Следствием этого становится возрастание роли механизма, используемого такой системой для постоянного увеличения числа просмотренных сайтов.

Построение региональных и специализированных поисковых сервисов предполагает активную фильтрацию информации. Специализация поисковой системы на базе какого-либо профиля ИЛИ тема тики, будь то правовая направленность, поиск персоналий или файлов мультимедиа в формате МРЗ, может происходить как в глобальном, так и на локальном масштабе. Разумеется, систему проще построить и сопровождать на ограниченном пространстве обновляемых сайтов, что обычно и реализуется на практике.

Региональными поисковыми службами информация фильтруется в основном по имени домена верхнего уровня сервера, например by для Беларуси, ru - для России. Серьезный недостаток таких систем отсутствует учет большого количества ресурсов, размещаемых региональными авторами ресурсов непосредственно в домене com.

Учет региональных особенностей зачастую присутствует и в глобальных поисковых сервисах. Система Lycos, например, ранжирует ответы по региону запроса.

Интернету, исходя из его природы, сопутствует информационный хаос. И только современные средства автоматического индексирования документов способны, учитывая применяемые алгоритмы и возможности технических средств, найти в этом хаосе рациональное зерно. Применение же при поиске ресурсов без поиска по ключевым словам напоминает серфинг, а не серьезную работу с информацией.

2.6 Глобальные поисковые машины WWW

После знакомства с несколькими глобальными поисковыми машинами пользователь, как правило, останавливается на одной-двух, с которыми и предпочитает работать в дальнейшем. При этом выбор поискового сервиса часто происходит совершенно произвольным способом, не на анализе действительных возможностей систем, а на их популярности. Одна из самых крупных и популярных -AltaVista. Система AltaVista отличается гибким языком запросов, требующим, однако, специального изучения. AltaVista обладает многоязыковой поддержкой поискового индекса и возможностью перевода в режиме on-line (то есть непосредственно во время сеанса работы) текста Web-страницы с распространенных европейских языков на английский.

Еще одна известная система - это NorthernLight, имеющая достаточно стандартный набор функций. Система дополнительно дает возможность работы с уникальной коллекцией ссылок (более 6 тысяч), в основном на статьи из периодических изданий. Индексное сопровождение кириллицы (в том числе и русского языка) делает ее вместе с AltaVista неплохим дополнением к региональным российским поисковым системам Рамблер, Yndex и Апорт при русскоязычном поиске.

Поиск и сбор информации в Интернете нуждаются в планировании. Ошибочная логика построения запроса, неоптимизированная последовательность применения инструментов поиска, попытки ускорить поиск - все это не просто затягивает получение результата, но может поставить под угрозу смысл поисковой работы.

Остановимся на нескольких важных моментах, связанных с планированием и первыми шагами таких работ.

Начинать необходимо со всестороннего лексического анализа искомой информации. Следует использовать любое, достаточно достоверное и подробное описание исследуемого вопроса для получения первичных сведений. Таким источником вполне может стать как узкоспециальный справочник, так и электронная энциклопедия общего профиля. На основе изученного материала необходимо сформировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, профессиональной лексики, сленга, слов-клише и устойчивых словесных штампов, при необходимости на нескольких языках. Заранее следует определить и возможные уточнения поискового запроса- редкие слова, синонимы и антонимы. названия и фамилии, тесно связанные с искомым вопросом. Желательно также заранее предусмотреть возможные нерелевантные отклики на запросы, то есть возможные характеристики поискового шума. После накопления этих предварительных данных можно перейти к получению первичной информации из Интернета.

Основная задача этой стадии учесть особенности Интернета, который является не только носителем технологий, но и традиций, и собственной этики. Сетевая лексика, сленг и написание общеупотребительных слов здесь могут отличатся от принятых.

Сведения о наличии в Интернете необходимых данных лучше всего искать в ранее известном каталоге, поддерживающем поиск по ключевым словам. При решении, например, простых задач типа "Получить текст Конституции Республики Беларусь" или "В каких правовых актах употребляется название родного города" известный сайт или каталог может быть более быстрым способом получения информации, чем автоматический индекс, и обеспечит большую достоверность.

После лексического анализа информации наступает технологический этап. Выбор информационного поля Интернета и поисковых инструментов производится на основе вышеизложенных подходов.

Используются тестовые запросы из одного-двух ключевых слов или фразы, затем анализируется количественный отклик. Содержательный анализ данных позволяет корректировать запросы, но релевантности отклика. В результате тестирования выясняются наиболее представительные источники информации, после чего следует уточнить последовательность применения поисковых инструментов. На этом этап планирования завершается.

В заключение отметим, что при решении задачи сбора информации из Интернета значительную роль играют региональные и специализированные поисковые сервисы. Применение глобальных индексов не для прямого поиска нужных сведений, а для локализации этих поисковых инструментов нередко позволяет сократить сроки решения поставленной поисковой задачи.

ЗАКЛЮЧЕНИЕ

Принимая во внимания все выше сказанное, можно попытаться одним словом определить суть Интернета: это – общение, общение между отдельными людьми и целыми нациями без вмешательства правительственных авторитетов. Эта новая технология с огромной скоростью изменяет облик цивилизации, коренным образом меняя представление человечества о мире и самом себе. Сеть Интернет уже вобрала в себя десятки миллионов человек, более сотни стран, она полностью изменила процессы распространения и восприятия информации. В наш век информационных технологий виртуальная реальность интернет, способствующая стиранию государственных границ, сокращению географических расстояний, ликвидирующая преграды между культурами, становится не менее явственной, чем окружающий нас материальный мир.

С развитием INTERNET появилась возможность быстрого и удобного поиска необходимой документальной информации. Теперь можно не заниматься подбором и изучением огромного количества литературы в книжных магазинах и библиотеках. Информацию можно получить, не выходя из дома или офиса. Для этого нужен только непосредственно сам компьютер, подключенный к INTERNET с установленной специальной программой – браузером, предназначенной для просмотра содержимого Web-страниц.

Благодаря разнообразию поисковых систем, специально разработанным для рядового пользователя, каждый может без труда отсечь заведомо ненужный поток информации, лишь правильно сформулировав цель поиска.

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

1. Гринберг А.С., Кашинский Ю.И., Славин Б.С. Введение в правовую информатику. Мн.: НО ООО БИП-С, 2002. С. 303.

2. Гусев В.С. Google: эффективный поиск. Краткое руководство. М., 2006.

3. Информатика для юристов и экономистов./ Под редакцией С. В. Симоновича. СПб.: Питер, 2001.

4. Информатика. Базовый курс. Учебник для ВУЗов, СПб, 2001

5. Компьютерные технологии в юридической деятельности./Под редакцией профессора Н. Полевого. М.: Издательство БЕК, 1994.

6. Рассолов М.М. Информационное право. – М.М.: Юристъ, 1999.-321с.

7. Энциклопедия Интернет, СПб, 2001

8. How the browsers compare//http://www.microsoft.com

Используемые методы сбора данных различаются в зависимости от вида проводимого исследования -- первичного или вторичного.

В случае проведения вторичных маркетинговых исследований на первый план выступают методы поиска в Интернете необходимой информации. Основными инструментами ее поиска сегодня являются поисковые системы и каталоги. В ряде случаев, когда их использование не дает достаточного эффекта, применяется «ручной» поиск по тематическим сайтам, «желтым страницам» и ряду других ресурсов. Более подробно методы поиска рассмотрены в одном из последующих разделов этой главы.

В случае сбора первичной информации основными методами сбора данных выступают интернет-опросы, наблюдение и эксперименты.

Интернет-опросы -- наиболее широко распространенным методом их проведения является анкетирование. Анкета представляет собой набор вопросов, на которые должны быть получены ответы респондентов, то есть лиц, отобранных для анкетирования. Из-за того, что этот инструмент отличается большой гибкостью и универсальностью, он является наиболее распространенным средством сбора первичных данных;

На рис. 3 представлен фрагмент анкеты, которую предлагается заполнить пользователям, решившим воспользоваться бесплатным сервисом электронной почты на сайте

Рис. 3.

Так же как и при проведении традиционных видов анкетирования, перед каждым интернет-исследованием необходимо тщательно разработать и протестировать используемые в нем анкеты. Непрофессиональный подход к их составлению неизбежно приводит к искажению реальной картины, либо полученные результаты не поддаются разумному истолкованию.

Этому виду исследования посвящен один из дальнейших разделов настоящей главы с названием «Проведение интернет-опросов».

Наблюдение -- представляет собой форму маркетинговых исследований, с помощью которых осуществляется систематическое, планомерное изучение поведения того или иного объекта или субъекта. Наблюдение, в отличие от опроса, не зависит от готовности наблюдаемого объекта сообщать информацию и является процессом открытого или скрытого сбора и регистрации событий или особых моментов, связанных с его поведением. Предметом наблюдения могут быть, например, характеристики и поведение покупателей;

К этому методу относятся маркетинговые исследования, проводимые фирмами при наличии у них собственного web-сервера. Они состоят в сборе и последующем анализе данных, получаемых из файлов журналов (log files) web-сервера или благодаря использованию технологий с применением файлов cookie. Эти данные могут относиться к поведению посетителей, очередности их переходов по страницам или статистике посещений web-сервера. В случае размещения на сайте поисковой системы, дополнительно могут собираться и анализироваться вводимые пользователями запросы.

Возможности анализа статистики посещений сервера являются одним из эффективных инструментов маркетинга. В отличие от проведения опросов, требующих активного участия респондентов, анализ статистики позволяет собрать ценную информацию, не привлекая посетителей к активным действиям.

Эксперимент -- наиболее строгим с научной точки зрения является экспериментальное исследование, имеющее целью установление причинно-следственных связей. Объекты эксперимента должны быть специально отобраны и подвергнуты запланированным воздействиям в условиях контроля над внешним окружением, чтобы выявить статистически значимые различия в их реакции. В той же мере, в какой исследователям удается «отсечь» или взять под контроль не относящиеся к делу внешние факторы, наблюдаемые эффекты могут быть соотнесены с воздействиями экспериментаторов на объект. Устанавливаемые таким образом связи между событиями после их критического анализа могут считаться причинно-следственными, а цели эксперимента -- достигнутыми.