понедельник, 9 июля 2012 г.

Software for Data Mining: IBM SPSS Modeler. Overview of Modeling Nodes

Когда компания всерьез задумывается об использовании аналитики и технологии Data Mining, один из первых вопросов, который следует решить, касается выбора "правильного" программного продукта. 

Вопрос этот непростой уже потому, что выбранное решение должно стать тем инструментом, который поможет преобразовать сырые данные компании в полезные знания, и соответственно поможет принимать более правильные решения. Такому инструменту нужно доверять и воспринимать как средство поддержки принятия решений.

При сравнении и выборе инструмента Data Mining  важно оценить "достаточность" математического инструментария для решения не только текущих задач компании, но и таких, которые могут возникнуть в перспективе, т.е. посмотреть на потребности аналитики на несколько шагов вперед.

Сегодняшняя тема - продолжение предыдущей статьи "Data Mining: типы закономерностей в данных", но рассмотренная в этот раз через призму программного обеспечения  IBM SPSS Modeler.

Использую этот программный продукт уже много лет, и думаю, что это действительно одно из лучших решений для Data Mining. Сегодня расскажу только об одной стороне решения - о методах и алгоритмах, доступных для извлечения закономерностей.

IBM SPSS Modeler (ранее Clementine) включает набор методов, которые позволяют извлекать из данных закономерности классификации, кластеризации и ассоциации (более детально о закономерностях и примерах использования можно прочитать по ссылке).   

На каждой "ветке" карты показаны возможности для решения задач классификации, кластеризации и поиска ассоциаций в программном продукте IBM SPSS Modeler, математический аппарат включают методы и алгоритмы машинного обучения, искусственного интеллекта и статистики.


Если немного раскрасить и структурировать карту, то информация про modeling node (узлы для моделирования) в IBM SPSS Modeler выглядит вот так



Каждый метод имеет определенные сильные стороны и подходит для определенного типа прикладной задачи и особенностей данных на входе.

Описание узлов IBM SPSS Modeler для решения задач классификации, кластеризации и ассоциации:

1 Classification
1.1 The Auto Classifier node
1.2 The Auto Numeric node
1.3 The Classification and Regression (C&;R) Tree node
1.4 The QUEST node
1.5 The CHAID node
1.6 The C5.0 node
1.7 The Decision List node
1.8 Linear regression models
1.9 The PCA/Factor node
1.10 The Feature Selection node
1.11 Discriminant analysis
1.12 Logistic regression
1.13 The Generalized Linear model
1.14 The Cox regression node
1.15 The Support Vector Machine (SVM) node
1.16 The Bayesian Network node
1.17 The Self-Learning Response Model (SLRM) node
1.18 The Time Series node
1.19 The k-Nearest Neighbor (KNN) node

2 Segmentation/Clustering
2.1 The Auto Cluster node
2.2 The K-Means node
2.3 The Kohonen node
2.4 The TwoStep node
2.5 The Anomaly Detection

3 Association
3.1 The Apriori node
3.2 The CARMA model
3.3 The Sequence node

Скачать документацию "IBM SPSS Modeler 14.2 User’s Guide" по можно по ссылке

Также может быть интересно:

Прочитать другие статьи из этой же рубрики можно прочитать здесь

Все статьи блога можно увидеть здесь

Для получения обновлений блога не забудьте подписаться на рассылку RSS.

4 комментария:

  1. Вообще-то SAS дает больше возможностей, это более гибкий инструмент, и неспроста чаще используется крупными компаниями.

    ОтветитьУдалить
  2. Вопрос выбора программного продукта Data Mining непростой, здесь имеет значение и функциональность, и цена, и другие факторы . Есть много инструментов, обзор популярности (2012) можно прочитать по ссылке http://irina-chubukova.blogspot.com/2012/06/trends-in-data-mining-kdnuggets.html
    Данный пост касался одного продукта, а именно IBM SPSS Modeler, который я использую в работе много лет и могу рекомендовать

    ОтветитьУдалить
  3. Да, САС дороговат. Я тоже и с СПСС работала и с САСом, САС удобней если работу делает математик.

    ОтветитьУдалить
  4. Здравствуйте! У меня вопрос : не знаете ли Вы специалиста по time series data mining, у которого я - частное лицо - мог бы за посильную сумму купить алгоритмы кластеризации, индексации, анализа аномалий и предсказания на основе T-WLCSS (самой длинной общей последовательности с динамическим искажением времени) для программирования?
    Михаил +79035425225 Москва

    ОтветитьУдалить

Related Posts Plugin for WordPress, Blogger...