:-)
  • Прочее 03.11.2008

    Предпосылки развития Web Mining

    Методы Data Mining базируются на изучении ретроспективных данных, получаемых из показаний оборудования, результатов опытов и т.п. Трудно себе представить большее хранилище различных данных, чем современный Интернет. Различные исследователи работали над применением методов Data Mining в сети уже в конце 90-х годов, однако именно в последние годы такие исследования стали особенно актуальны. Это связано с резким скачком в итак бурно развивающемся Интернете, благодаря распространению мобильных средств доступа, удешевлению персональных компьютеров, распространению беспроводных технологий. Мелкий бизнес потоком хлынул в сеть, создавая бесчисленные интернет-магазины и услуги доставки всего что пожелаете, приход Веб 2.0 провозглашенный Тимом О'Рейли ознаменовал участие рядовых пользователей в жизни Интернет сайтов. Появились блоги, коммьюнити, социальные сети, где контент (наполнение) создавался обычными посетителями сайта. В отличии от сети Интернет десятилетней давности, когда для продвижения собственных идей требовалось обладать определенным набором знаний в компьютерных технологиях, да еще и немало заплатить за их размещение в сети, сегодня эти преграды исчезают, оставляя место для безудержной фантазии пользователей. Все это, естественно, подтолкнуло и развитие технологий и областей науки, связанных с сетью Интернет. Накопление громадного количества данных, появление различных возможностей сбора статистики, нужды бизнеса, - каждое из явлений — это локомотив, разгоняющий развитие Data Mining и как частного направления Web Mining.

    Постановка задачи для систем Web Mining

    Методы Data Mining уже давно применяются для прогнозирования финансовых рынков, банковского дела, страхования, медицины. Теперь большинство компаний так же предоставляют свои услуги удаленно, через всемирную сеть. Переход на новый уровень взаимодействия с клиентами требует и новых подходов к работе с ними – систем Web Mining для оперативной обработки данных и принятия решений.
    Электронной коммерции и страховому бизнесу требуются новые решения для успешной конкурентной борьбы, одним из которых является персонификация. На основании данных о клиенте система Web Mining может классифицировать его как потенциального покупателя, или к примеру возможных кредитных мошенников и оповестить менеджера, либо запустить определенный сценарий работы с этим клиентом. Проанализировать поведение посетителя сайта, его предыдущие посещения и прочие данные для классификации это одна из многочисленных задач, которые ставятся перед системами Web Mining.
    В Web Mining можно выделить два основных направления: Web Content Mining и Web Usage Mining, соответственно и два вида задач, которые ставятся перед системами Web Mining. Web Content Mining означает автоматизированный поиск знаний из различных источников в Интернете, а так же кластеризация документов. Второе направление более приспособлено для коммерческого использования, Web Usage Mining подразумевает обнаружение закономерностей в действиях посетителя сайта, а так же сбор статистики и последующий ее анализ. Это позволит Интернет ресурсу исполнить пожелания клиента, которые он не выражал напрямую. К примеру посетитель посмотрел десять моделей автомобилей одной марки на Интернет-аукционе, адаптивная система может легко сделать вывод о том, что он ищет, основываясь на этих и многих других данных, неявно содержащих знания о конкретном посетителе.

    Сбор исходных данных

    Конечно, не все данные полезны. Если перед нами стоит задача поиска данных по теме, например, выборах президента США в этом году, то стоит определить и подзадачу — определение релевантности найденных материалов. Релевантность — это мера соответствия найденного материала запросу. Классифицируя найденные материалы по критериям, можно определить, какие данные представляют для нас интерес.
    Более сложным случаем является сбор статистики для Web Usage Mining. Здесь зачастую нельзя заранее определить четкие рамки, какие данные собирать, а какие — нет. Стоит определить, какие же данные можно собрать в принципе. Сбор статистики может вестись на сервере, на стороне пользователя или на промежуточном узле. Немногие пользователи добровольно согласятся предоставлять свои данные третьему лицу для статистики. Сбор же статистики на промежуточном узле связан с техническими сложностями. Наиболее простым и практичным является сбор статистики на сервере.
    С технической точки зрения во время запроса веб-страницы пользователем происходит обмен данными между браузером (обозревателем) и сервером. При запросе веб-сервер получает некоторые данные о клиенте, например IP-адрес, название браузера, страница с которой был совершен переход, собственно страница, которую запрашивает пользователь, языковые настройки системы пользователя, так же можно засечь момент времени запроса. Основываясь на этих данных можно вычислить географическое расположение пользователя, время потраченное им на изучение веб-страницы и некоторые другие факты. Основываясь на этом, можно многое спрогнозировать и адаптировать для пользователя, что приведет к увеличению эффективности бизнеса. К сожалению, не все так просто. Все данные переданные от пользователя серверу не могут считаться на сто процентов достоверными и могут привести к обратным результатам. Например пользователь из России, использующий прокси-сервер, находящийся в Германии может получить страницу переведенную на немецкий язык.

    В продолжении...
    Методы исследования исходных данных
    Результаты и их эффективность

    А еще я писал про:

    1. Поездка в Финляндию. Часть 1.
    2. Поездка в Финляндию. Часть 2.
    3. Поездка в Чехию. Часть 1.

    Tags: ,

  • 11 комментариев

    WP_Modern_Notepad

    Trackbacks

    Оставить комментарий

    Внимание: Комментарии проходят премодерацию. Не надо посылать их несколько раз.