Предпосылки развития Web Mining
Методы Data Mining базируются на изучении ретроспективных данных, получаемых из показаний оборудования, результатов опытов и т.п. Трудно себе представить большее хранилище различных данных, чем современный Интернет. Различные исследователи работали над применением методов Data Mining в сети уже в конце 90-х годов, однако именно в последние годы такие исследования стали особенно актуальны. Это связано с резким скачком в итак бурно развивающемся Интернете, благодаря распространению мобильных средств доступа, удешевлению персональных компьютеров, распространению беспроводных технологий. Мелкий бизнес потоком хлынул в сеть, создавая бесчисленные интернет-магазины и услуги доставки всего что пожелаете, приход Веб 2.0 провозглашенный Тимом О'Рейли ознаменовал участие рядовых пользователей в жизни Интернет сайтов. Появились блоги, коммьюнити, социальные сети, где контент (наполнение) создавался обычными посетителями сайта. В отличии от сети Интернет десятилетней давности, когда для продвижения собственных идей требовалось обладать определенным набором знаний в компьютерных технологиях, да еще и немало заплатить за их размещение в сети, сегодня эти преграды исчезают, оставляя место для безудержной фантазии пользователей. Все это, естественно, подтолкнуло и развитие технологий и областей науки, связанных с сетью Интернет. Накопление громадного количества данных, появление различных возможностей сбора статистики, нужды бизнеса, - каждое из явлений — это локомотив, разгоняющий развитие Data Mining и как частного направления Web Mining.
Постановка задачи для систем Web Mining
Методы Data Mining уже давно применяются для прогнозирования финансовых рынков, банковского дела, страхования, медицины. Теперь большинство компаний так же предоставляют свои услуги удаленно, через всемирную сеть. Переход на новый уровень взаимодействия с клиентами требует и новых подходов к работе с ними – систем Web Mining для оперативной обработки данных и принятия решений.
Электронной коммерции и страховому бизнесу требуются новые решения для успешной конкурентной борьбы, одним из которых является персонификация. На основании данных о клиенте система Web Mining может классифицировать его как потенциального покупателя, или к примеру возможных кредитных мошенников и оповестить менеджера, либо запустить определенный сценарий работы с этим клиентом. Проанализировать поведение посетителя сайта, его предыдущие посещения и прочие данные для классификации это одна из многочисленных задач, которые ставятся перед системами Web Mining.
В Web Mining можно выделить два основных направления: Web Content Mining и Web Usage Mining, соответственно и два вида задач, которые ставятся перед системами Web Mining. Web Content Mining означает автоматизированный поиск знаний из различных источников в Интернете, а так же кластеризация документов. Второе направление более приспособлено для коммерческого использования, Web Usage Mining подразумевает обнаружение закономерностей в действиях посетителя сайта, а так же сбор статистики и последующий ее анализ. Это позволит Интернет ресурсу исполнить пожелания клиента, которые он не выражал напрямую. К примеру посетитель посмотрел десять моделей автомобилей одной марки на Интернет-аукционе, адаптивная система может легко сделать вывод о том, что он ищет, основываясь на этих и многих других данных, неявно содержащих знания о конкретном посетителе.
Сбор исходных данных
Конечно, не все данные полезны. Если перед нами стоит задача поиска данных по теме, например, выборах президента США в этом году, то стоит определить и подзадачу — определение релевантности найденных материалов. Релевантность — это мера соответствия найденного материала запросу. Классифицируя найденные материалы по критериям, можно определить, какие данные представляют для нас интерес.
Более сложным случаем является сбор статистики для Web Usage Mining. Здесь зачастую нельзя заранее определить четкие рамки, какие данные собирать, а какие — нет. Стоит определить, какие же данные можно собрать в принципе. Сбор статистики может вестись на сервере, на стороне пользователя или на промежуточном узле. Немногие пользователи добровольно согласятся предоставлять свои данные третьему лицу для статистики. Сбор же статистики на промежуточном узле связан с техническими сложностями. Наиболее простым и практичным является сбор статистики на сервере.
С технической точки зрения во время запроса веб-страницы пользователем происходит обмен данными между браузером (обозревателем) и сервером. При запросе веб-сервер получает некоторые данные о клиенте, например IP-адрес, название браузера, страница с которой был совершен переход, собственно страница, которую запрашивает пользователь, языковые настройки системы пользователя, так же можно засечь момент времени запроса. Основываясь на этих данных можно вычислить географическое расположение пользователя, время потраченное им на изучение веб-страницы и некоторые другие факты. Основываясь на этом, можно многое спрогнозировать и адаптировать для пользователя, что приведет к увеличению эффективности бизнеса. К сожалению, не все так просто. Все данные переданные от пользователя серверу не могут считаться на сто процентов достоверными и могут привести к обратным результатам. Например пользователь из России, использующий прокси-сервер, находящийся в Германии может получить страницу переведенную на немецкий язык.
В продолжении...
Методы исследования исходных данных
Результаты и их эффективность
А еще я писал про:










Ноябрь 4th, 2008 at 10:33
Отличная статья! Я как раз собираюсь делать диплом по Data Minig’у и этот материал и новая тема на хабре очень кстати, т.к. книг по этому делу на русском почти нет. Спасибо.
Ноябрь 4th, 2008 at 21:10
Спасибо за статью. Интересная тема, буду ждать продолжения.
Ноябрь 5th, 2008 at 04:06
Спасбо, пишите ещё! Возможно Вам будет интересны
Декабрь 24th, 2008 at 21:57
HELP!!!
а где можно достать больше информации по теме Web Mining??? желательно на русском но и англ. тоже буду рад)
Декабрь 24th, 2008 at 23:32
там что-то около 800 метров пдфок и прочего по Data Mining. Среди них и Web Mining наверняка. На русском книг очень мало, почти все они переводы иностранных. У нас в страте не развито это направление.
Май 22nd, 2009 at 18:27
Могу посоветовать проект Data Mining Source Code () и блог ().
Май 22nd, 2009 at 18:33
Спасибо!
Июнь 9th, 2009 at 19:27
весь отлично, лишь малость суховато
Октябрь 3rd, 2009 at 16:27
Кул статья, у меня диплом на эту тему, очень бы хотелось проконсультироваться..
Октябрь 4th, 2009 at 22:36
Консультируйтесь, только я, если честно не сильно еще разбираюсь.
Октябрь 19th, 2009 at 21:02
Вы правы – Web Usage Mining – это ключ к разработке успешного сайта.