Книги в продаже (аннотация + содержание + отрывок)

В. Дюк, А. Самойленко
DATA MINING: УЧЕБНЫЙ КУРС (+CD).
Цена: 49 р.

Источник: Издательский дом 'ПИТЕР'
Разделы: Разное (общие вопросы использования ПК, компьютерная архитектура, пользовательский интерфейс, компьютерные системы и информационные ситемы)
Подробнее: Информация от издателя (открывается в новом окне)
Заказ: Оформление покупки (открывается в новом окне)
      Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний (закономерностей). В книге приводится объективный аналитический обзор методов и программных продуктов Data Mining. Подробно рассматриваются статистические пакеты, нейросети, эволюционные методы и алгоритмы поиска логических закономерностей. Описываются наиболее популярные инструментальные средства Data Mining. Разбираются практические примеры. Для студентов, аспирантов, разработчиков интеллектуальных систем и широкой ау
      дитории читателей, интересующихся проблемами анализа данных.
     
     
     
     
      СОДЕРЖАНИЕ
     
     
     
      От авторов
      Сопроводительный компакт-диск
      От издательства
      Глава 1. Общие представления о Data Mining
      Что такое Data Mining?
      Кому это нужно?
      Некоторые бизнес-приложения Data Mining
      Специальные приложения
      Типы закономерностей
      Классы систем Data Mining
      Предметно-ориентированные аналитические системы
      Статистические пакеты
      Нейронные сети
      Системы рассуждений на основе аналогичных случаев
      Деревья решений
      Эволюционное программирование
      Генетические алгоритмы
      Алгоритмы ограниченного перебора
      Системы для визуализации многомерных данных
      Выводы
      Десять мифов интеллектуального анализа данных
      Шесть шагов к успеху в интеллектуальном анализе данных
      Литература
      Глава 2. Современные методы анализа данных
      Обзор компьютерных средств анализа данных
      SAS
      SPSS для Windows
      SYSTAT
      MINITAB
      STATISTICA/W
      Обзор методов анализа данных на примере пакета STATGRAPHICS
      STATGRAPHICS Plus for Windows - общие и уникальные свойства
      Базовая система статистических процедур
      Общие сведения о работе с базовой системой
      Методы, использующие обучающую информацию
      Множественный регрессионный анализ
      Дискриминантный анализ
      Методы сравнения с образцом
      Методы исследования структуры данных
      Методы визуализации данных
      Методы автоматического группирования
      Литература
      Глава 3. Нейросетевое представление неизвестных знаний и закономерностей
      Структура искусственных нейронных сетей
      Нейропроцессорные элементы
      Функции активации нейроэлементов
      Функции выхода
      Топология нейронных сетей
      Архитектура различных искусственных нейронных сетей
      Элементарный перцептрон Ф. Розенблатта
      Многослойный перцептрон
      Нейросети Хопфилда
      Нейросети Хемминга
      Порогово-полиномиальные нейросети
      Методы обучения знаниям искусственных нейронных сетей
      Обучение элементарного перцептрона
      Алгоритмы обучения многослойного перцептрона
      Обучение нейросетей Хопфилда
      Обучение сетей Хемминга
      Обучение и минимизация сложности порогово-полиномиальных и диофантовых сетей
      Искусственные нейронные сети в задачах идентификации и управления
      Нейросетевое управление с супервизором
      Нейросетевая идентификация объектов управления
      Схемы обучения управлению с использованием обратной модели динамики объекта
      Схема специализированного обучения ИНС
      Метод обратного распространения ошибки в задачах управления
      Литература
      Глава 4. Эволюционные алгоритмы
      История эволюционных алгоритмов
      Генетический алгоритм
      Генетическое программирование
      Метод группового учета аргументов
      Краткая история
      Многослойный итеративный МГУА
      Спектр алгоритмов и методов МГУА
      Комбинаторный МГУА - COMBI
      Объективная компьютерная кластеризация
      Нейронные сети с активными нейронами
      Самоорганизованное построение нечетких правил
      Литература
      Глава 5. Обнаружение логических закономерностей в данных
      Можно ли решить задачу обнаружения знаний с помощью классических многомерных методов?
      Логические правила в нашей жизни
      Правила в социологии
      Правила в экономике и управлении финансами
      Правила в медицине
      Правила в молекулярной генетике и генной инженерии
      Точность и полнота правил
      Примеры правил
      Традиционные методы обнаружения логических закономерностей
      Алгоритм "Кора"
      Деревья решений
      Случайный поиск с адаптацией
      Инструментальные средства обнаружения знаний в данных
      Построение деревьев решений - система See5/C5.0
      WizWhy - система поиска логических правил в данных
      Литература
      Пример 1. Выяснение причин неурожайности сельскохозяйственных участков
      Исходные данные
      Комплексная обработка данных традиционными методами
      Сравнение средних значений признаков
      Метод главных компонент
      Множественный регрессионный анализ
      Дискриминантный анализ
      Результаты обработки данных системой See5
      Результаты обработки данных системой WizWhy
      Пример 2. Сравнение структуры интеллекта "физиков" и "лириков"
      Общая характеристика данных
      Сравнение средних значений результатов тестирования в группах "физиков" и "лириков"
      Поиск логических закономерностей системой WizWhy
      Пример 3. Влияние возраста и стажа работников на производительность труда
      Дисперсионный анализ
      Обработка данных системой WizWhy
      Пример 4. Поиск правил для прогноза длительности ремиссий при алкоголизме
      Общая характеристика данных
      Частотный анализ признаков
      Дискриминантный анализ
      Результаты обработки данных системой WizWhy
      Результаты обработки данных системой See5 (decision trees)
      Отчет системы See5
      Виды знаний и способы их представления
      Виды знаний
      Фактические и стратегические знания
      Факты и эвристики
      Декларативные и процедурные знания
      Интенсиональные и экстенсиональные знания
      Глубинные и поверхностные знания
      Жесткие и мягкие знания
      Модели представления знаний
      Продукционные системы
      Логические модели
      Фреймы
      Семантические сети
      Другие методы представления знаний
      Литература
      Системы, основанные на знаниях, и особенности их разработки
      Области применения и решаемые задачи
      Типы систем, основанных на знаниях
      Интеллектуальные информационно-поисковые системы (ИИПС)
      Экспертные системы
      Обучающие системы
      Этапы разработки экспертных систем
      Идентификация
      Получение знаний
      Концептуализация
      Формализация
      Выполнение (реализация)
      Тестирование
      Опытная эксплуатация
      Инструментальные средства
      Литература
      Извлечение знаний из памяти эксперта
      Процедура взаимодействия инженера по знаниям с экспертом
      Классификация методов работы с экспертами
      Пассивные методы
      Активные индивидуальные методы
      Активные групповые методы
      Экспертные игры
      Структурирование знаний
      Система понятий
      Семантические отношения
      Стратегии принятия решений
      Литература
      Толковый словарь основных терминов интеллектуального анализа данных
      analytical model (аналитическая модель)
      anomalous data (аномальные данные)
      artificial neural networks (искусственные нейронные сети)
      CART, classification and regression trees (деревья классификации и регрессии)
      CHAID, chi square automatic interaction detection (автоматическое выявление зависимости по критерию хи-квадрат)
      classification (классификация)
      clustering (кластеризация)
      data cleansing (очистка данных)
      data clearing and standardization (очистка и стандартизация данных)
      data mart (информационная "витрина")
      data mining (интеллектуальный анализ данных)
      data modelling software (программное обеспечение моделирования данных)
      data navigation, database navigation (перемещение в БД)
      data visualization (визуализация данных)
      data warehouse (информационное хранилище, хранилище данных)
      decision tree (дерево решений)
      dimension (измерение)
      exploratory data analysis (разведочный анализ данных)
      genetic algorithms (генетические алгоритмы)
      linear regression (линейная регрессия)
      logistic regression (логистическая регрессия)
      MDA, multidimensional analysis (многомерный анализ данных)
      MDDBMS, multidimensional database management system (многомерная СУБД)
      metadata (метаданные, "данные о данных")
      neural networks (нейронные сети)
      OLAP, on-line analytical processing (оперативная аналитическая обработка данных)
      OLTP system (система оперативной обработки транзакций)
      predictive model (модель с предсказанием)
      prospective data analysis (анализ тенденций)
      query-and-reporting tools (инструментарий формирования запросов и вывода отчетов)
      ROLAP, relational on-line analytical processing (оперативная аналитическая обработка реляционных данных)
      rule induction (индукция правил)
      time series analysis (анализ временных рядов)
      Алфавитный указатель
     
     
     
     
      ОТРЫВОК
     
     
      Глава 2 Современные методы анализа данных
     
      Обзор компьютерных средств анализа данных
      SAS
      SPSS для Windows
      SYSTAT
      MINITAB
      STATISTICA/W
      Обзор компьютерных средств анализа данных
      Рынок компьютерных программ анализа данных обширен и разнообразен. На нем представлены продукты более тысячи наименований. Такое разнообразие отражает многоплановость задач анализа в различных областях человеческой деятельности. Обзоры указанных программ приводятся в специальных справочниках, где содержатся краткие описания их назначения, требования к техническим характеристикам компьютера, сведения о дополнительных сервисных возможностях, цены и адреса фирм-поставщиков. Это весьма объемные издания, публикуемые в западной прессе.
      Информация о последних версиях программ регулярно помещается в популярных компьютерных журналах и газетах типа "PC Magazine", "PC World", "BYTE", "PC Week" и др. Известны аналогичные отечественные публикации. Они представлены, в основном, в журнале "Мир ПК" [21, 28, 35, 36, 38].
      Ценные сведения о компьютерных системах обработки данных можно почерпнуть в [49, 50]. Кроме теории в этих книгах дается классификация программного обеспечения в области анализа данных, рассматриваются требования к статистическим пакетам общего назначения, характеризуются особенности российского рынка, приводится краткий обзор наиболее популярных программ и предлагаются рекомендации по их выбору. Также немало полезной информации содержится в словаре-справочнике "Информатика в статистике" [33]. Реальные примеры практически по всем основным разделам анализа данных разобраны в монографии [27].
      Вместе с тем необходимо отметить, что значительная часть публикуемой информации быстро устаревает. Это связано со стремительными темпами развития отрасли. На рынке программного обеспечения в условиях жесткой конкуренции происходит процесс консолидации, и положение на сегодняшний день заметно отличается от ситуации, скажем, трехлетней давности. Возглавляют процесс консолидации (как недавно сказал Jack Noonan, президент корпорации SPSS) те, кто может предложить наилучший продукт и сделать это быстрее всех. Для тех же, кто испытывает трудности при переходе к новым операционным системам, процесс объединения оказывается фатальным. Пример такой консолидации - слияние SPSS с фирмой SYSTAT и приобретение в январе 1996 года корпорацией SPSS одного из крупнейших конкурентов, фирмы BMDP Statistical Software Inc.
      На рынке математического обеспечения в эпоху больших компьютеров лидировали несколько статистических пакетов - BMDP, SAS и SPSS. Это объяснялось тем, что фирмы-разработчики достаточно быстро реагировали на достижения в области анализа данных и ими был накоплен большой запас прочности, позволивший далеко оторваться от конкурентов. С появлением персональных компьютеров, новых языков программирования и технологий лидировавшим фирмам пришлось решать сложную задачу: создавать пакет для ПК заново или адаптировать уже существующую программу к требованиям "маломощных" компьютеров. Вместе с тем, богатые графические возможности ПК дали шанс менее известным фирмам сравнительно быстро создать новые, ныне очень популярные, программные средства анализа данных. В этот период появился пакет STATGRAPHICS (STATistical GRAPHICs System) фирмы Manugistics. Он настолько выигрышно отличался от других статистических пакетов удобством пользовательского интерфейса, что завоевал огромную популярность и в дальнейшем задал основные о
      риентиры для развития всей индустрии в целом. За последние годы, наконец, появились Windows-версии наиболее известных статистических систем. А корпорации SPSS и Manugistics выпустили версии для Windows 95/NT и продолжают наращивать огромный потенциал своих систем.
      Таблица 2.1. Классификация статистических пакетов
      Тип Отечественные Зарубежные
      Профессиональные Нет SAS, BMDP
      Универсальные STADIA, Olymp STATGRAPHICS, SPSS, STATISTICA, S-PLUS
      Специализированные Mesosaur, DataScope, "Класс-Мастер", "Эвриста", САНИ Большое многообразие
      Таблица 2.2. Зарубежные статистические пакеты
      Название Разработчик Дилер в России
      S-PLUS Math. Soft Inc Нет
      SYSTAT SPSS Inc. Статистические системы и сервис
      SPSS SPSS Inc. Статистические системы и сервис НКЦ "Тренд"
      STATISTICA Stat. Soft Softline
      STATGRAPHICS Manugistic Inc. "ИнфоСтрой"
      SAS SAS Inst. ИНТУ
      Visual Numerics Visual Numerics "СТАТ-ДИАЛОГ"
      Таблица 2.3. Отечественные статистические пакеты
      Название Разработчик Дилер
      "Мезозавр"
      САНИ
      "Класс-мастер" "СТАТ-ДИАЛОГ" "СТАТ-ДИАЛОГ"
      "Эвриста" Центр cтатистических исследований МГУ Центр cтатистических исследований МГУ
      DataScope (СИГАМД) "СтатПойнт" "СтатПойнт"
      Olymp РОСЭКСПЕРТИЗА РОСЭКСПЕРТИЗА
      STADIA "Информатика и компьютеры" "Информатика и компьютеры"
      SIGN ИМТ МГУ ИМТ МГУ
      "Статистик-консультант" "Тандем", Петрозаводск ИМТ МГУ
      Выбор пакета для анализа данных зависит от характера решаемых задач, объема обрабатываемого материала, квалификации пользователей, имеющегося оборудования и т. д. [49], [50].
      Для пользователей, имеющих дело со сверхбольшими объемами данных или узкоспециализированными методами анализа, пока нет альтернативы профессиональным западным пакетам. Среди них самыми широкими возможностями обладает SAS. Для создания собственной системы обработки данных можно обратиться к библиотеке IMSL, содержащей сотни тщательно и квалифицированно составленных статистических подпрограмм.
      Несколько меньшими возможностями обладают универсальные пакеты. Вместе с тем, их стоимость значительно ниже, чем профессиональных. При приобретении такого пакета не мешает, однако, лишний раз убедиться, что он содержит требуемые методы обработки.
      Ниже предлагается краткий обзор некоторых популярных статистических пакетов, основанный на аналитической статье С. А. Айвазяна и В. С. Степанова "Программное обеспечение по статистическому анализу данных: методология сравнительного анализа и выборочный обзор рынка" (http://is1.cemi.rssi.ru/ruswin/publication/ep97001t.htm).
      SAS
      Общая информация
      Система SAS развивается с 1976 года и работает на самых различных платформах под управлением одной из 12 операционных систем. Фирма-разработчик SAS принадлежит к числу ведущих разработчиков программных продуктов. В ней трудится более 3000 сотрудников, которые поддерживают более 3 миллионов пользователей в 120 странах.
      SAS включает свыше 20 различных программных продуктов, объединенных друг с другом "средствами доставки информации" (Information Delivery System, или IDS, так что весь пакет иногда обозначается как SAS/IDS). Под понятием IDS подразумевается, что пользователю SAS достаточно поставить на свой компьютер кроме ОС систему SAS и этим ограничиться для 100-процентнoй информатизации деятельности любой фирмы (все остальные функции типа задач, решаемых на основе Excel, Word, любой из СУБД и т. п., полностью возьмет на себя SAS/IDS).
      Традиционно сложилось, что основными отечественными пользователями системы являются предприятия ВПК, крупные бизнесмены (некоторые банки, включая Центробанк, биржи, торговые фирмы), некоторые атомные станции, крупнейшие медицинские и геофизические центры, крупные государственные структуры.
      Основным достоинством SAS является непревзойденная среди универсальных пакетов мощность по набору статистических алгоритмов. Кроме того, SAS предоставляет пользователю возможность подключения собственных оригинальных алгоритмов.
      SAS/IDS - это интеграция весьма разнообразных возможностей доступа к данным и управления ими, средств анализа данных, способов представления информации и генерации отчетов. Система имеет модульную структуру и легко конфигурируется под специфические особенности ее пользователя.
      Модули SAS, связанные с классификацией
      Для классификации и снижения размерности в системе SAS/IDS функционируют следующие компоненты (модули системы):
      BASE SAS - ядро системы со встроенным языком программирования 4GL и языком работы с базами данных SQL, средства управления данными, поддержки индексов для баз данных, возможностями доступа к широкому набору форматов данных, процедуры описательной статистики и генерации отчетов.
      FSP обеспечивает полноэкранный доступ к данным, ввод, редактирование, преобразование данных, генерацию отчетов и деловую переписку.
      GRAPH содержит деловую, научную, рекламную графику, различные шрифты и карты.
      STAT включает в себя многофункциональный набор статистических процедур анализа данных.
      Дополнительные модули, работающие под любой ОС
      IML представляет собой интерактивный матричный язык программирования для выполнения углубленных математических, инженерных и статистических расчетов. Этот язык дает возможность математику легко программировать свои собственные процедуры, используя язык, близкий к языку линейной алгебры.
      LAB предоставляет пользователю экспертную поддержку. В частности, здесь система подсказывает пользователю, выполняются или нет предположения, лежащие в основе того или иного метода анализа данных.
      Модули, работающие, в частности, под Windows, OS/2
      ASSIST служит средством для обеспечения интерактивного доступа пользователей к различным возможностям системы SAS/IDS.
      EIS является меню-управляемым инструментом разработки и поддержки интерактивных исполняемых информационных систем методом объектно-ориентированной технологии. С помощью этого модуля легко настроить систему на собственные данные и формы представления результатов.
      ACCESS дает возможность конструировать отдельные интерфейсы для связи SAS/IDS с самыми разнообразными CУБД (ADABAS, DB2, ORACLE, SQL/DS и др.).
      INSIGHT представляет собой интерактивный инструмент для графического анализа данных.
      Из описанных модулей SAS - "кирпичей" - можно строить любые "сколь угодно высокие дома". Однако следует заметить, что процесс освоения технологии строительства, самого строительства, а также получения лицензии на "право застройки" требует определенных интеллектуальных и материальных затрат.
      Достоинства и недостатки пакета
      Основными достоинствами SAS считают мощное интеллектуальное ядро, поддержку архитектур клиент-сервер, возможность доступа и интеграции данных из любых источников и наличие объектно-ориентированной технологии быстрой разработки приложений. При этом благодаря высокой гибкости и переносимости системы приложение, созданное в одной из ОС, может быть перенесено на любую из платформ, поддерживаемых SAS/IDS, начиная от суперЭВМ типа CRAY до Mainframe или рабочей станции (правда, при этом оно будет требовать для работы системную часть SAS).
      Главными недостатками системы считают громоздкость, трудности в освоении, высокие требования к статистической квалификации пользователя, жесткие требования к аппаратной части ПЭВМ, большой объем занимаемого дискового пространства и дороговизну (свыше $800 за каждый модуль).
      SPSS для Windows
      Общие сведения
      Пакет SPSS предназначен в первую очередь для статистиков-профессионалов. Он включает развитый аппарат статистического анализа, соизмеримый по мощности с SAS. Программу SPSS для Windows считают в настоящее время одним из лидеров среди универсальных статистических пакетов.
      Вместе с тем, как и все мощные универсальные пакеты, SPSS "любит хорошее железо": процессор должен быть 486DX-2 и выше, для его использования рекомендуется 16 Мбайт оперативной памяти, а на винчестере модули Base и Professional Statistics для управления данными и с алгоритмами классификации требуют как минимум 65-80 Мбайт (вместе с файлами подкачки). Кроме того, цена полного комплекта системы SPSS (SPSS Base + набор из 7 модулей) достаточно внушительна ($4290 для версии 6.1 или 7.0).
      Особенности версии 7.0
      SPSS-7.0 имеет удобные графические средства (более 50 типов диаграмм), а также развитые средства подготовки отчетов. Эта версия отличается производительностью, скоростью вычислений и расширенным функциональным наполнением. Аналитические параметры отображаются на экране в виде простых и понятных меню и диалоговых окон.
      Усовершенствование в процедуре обучения достигается введением специального средства Навигатор. Навигатор выполняет в SPSS интеллектуальную функцию, объясняя пользователю, какую статистику лучше применить в каждом конкретном случае или как ввести данные в данном подразделе. Во многом за счет этого средства можно сфокусировать свое внимание собственно на анализе данных, не заботясь о механизме его выполнения. Новая контекстно-ориентированная справочная система содержит пошаговые инструкции для наиболее важных операций.
      Для эффективного применения пакета для классификации и снижения размерности, как минимум, нужны методы из модулей SPSS BASE и Profess. Statistics. Существенно же повысить точность и/или эффективность классификации и прогноза может применение части (или всех) из модулей Advanced Statistics, CHAID и Neural Connection.
      Первый модуль содержит, в частности, модели логистической регрессии, а также ряд методов, смежных с классификацией. Модуль CHAID строит деревья решений. Последний модуль реализует классификацию с помощью нейросетей.
      На основе DDE- и OLE-технологий фирмы Microsoft, а также стандарта ODBC в SPSS также решены вопросы обмена с другими Windows-приложениями и выполняется связь с большинством форматов баз данных. Так, можно, не выходя из среды WinWord, одновременно работать в среде SPSS и, наоборот, очень легко переносить полученные тестовые или графические результаты из SPSS в документ системы Word.
      Достоинства и недостатки версий 6.1 и 7.0
      По мнению разработчиков пакета, после SAS, в своей полной конфигурации SPSS для Windows является пакетом с наиболее высоким значением параметра мощность: он обладает весьма полным набором статистических (всего их более 60) и графических процедур, а также процедур создания отчетов. Также создатели пакета гордятся интерфейсом SPSS с пользователем, считая его очень простым и удобным. Кроме того, традиционно пакет отличается высокой точностью вычислений.
      Однако за повышенные комфорт и мощность требуется заплатить немалые суммы. Чтобы сориентировать читателя в ценах на модули, приведем некоторые из них. Так, модули "Углубленная статистика" и CHAID стоят в США около $500 и $700 (и, соответственно, $550 и $740 при покупке у дистрибьютора в РФ); нейромодуль же стоит почти тысячу USD. Набор из модулей для решения задач классификации в составе SPSS BASE и Profess. Statistics для версии 6.1 или 7.0 будет стоить около $1100 в США [9] (и $1530 при покупке у российского дистрибьютора). Достаточно же полный комплект SPSS, как уже отмечалось, продается этим дистрибьютором за $4290.
      Версия 7.5. В марте 1997 года фирма SPSS представила на российском рынке новую версию пакета 7.5 для Windows 95 (NT) [51]. В ней базовый модуль выполняет функции факторного, кластерного и дискриминантного анализа, а также дополнен инструментами вычисления близости между наблюдениями (или переменными).
      Работа с версией 7.5 существенно облегчена. Поддержка сценариев позволяет настраивать интерфейс, связывать сценарии с пиктограммами панели инструментов (пунктами меню), активизировать заданные последовательности действий, интегрировать пакет с другими приложениями, разрабатывать новые приложения, создавать контекстно-зависимые справочные системы.
      Благодаря средству ОDВС расширено число приложений, с которыми версия 7.5 может обмениваться исходными данными. Кроме того, можно импортировать файлы SYSTAT, экспортировать таблицы и текст в формат ASCII. Пакет также может легко интегрироваться с Интернет-технологией.
      SASS 7.5 Base поставляется с руководством на русском языке. Кроме того, есть русификация на уровне интерфейса пользователя и навигатора результатов.
      Для работы с версией 7.5 требуется ПЭВМ с ОС Windows 95/NT (имеющая процессор 486 DX, 12 Мбайт RAM) и монитором VGA (или более мощный). Она занимает на диске 55 Мбайт и защищена аппаратной "заглушкой" (электронным ключом). Минимальная цена версии 7.5 составляет $980 за одно рабочее место. SPSS предлагает лицензии на год, три года и локальные лицензии для образовательных и научных учреждений. Приобретение последней дает право продавать копии пакета сотрудникам и студентам по любой цене. В числе дополнительных модулей оставлены модули Tables, Trends, Exact Tests, Nenral Connection и Diamod.
      SYSTAT
      Общая информация
      Универсальная статистическая система SYSTAT разработана одноименной фирмой, которая с сентября 1994 года "поглощена" корпорацией SPSS. Она отличается от других универсальных систем типа SAS, SPSS, BMDP тем, что изначально спроектирована под платформу IBM PC. Главное достоинство пакета - исключительно широкий диапазон и глубина проработки функционального наполнения. Здесь есть широкие возможности и для слабо подготовленного в статистике пользователя, и для достаточно искушенного статистика.
      Фирма SYSTAT была совсем недавно одним из лидеров в области производства высококачественного статистического программного обеспечения. Поэтому сегодня более 150 учебных заведений во всем мире готовят у себя специалистов на основе наукоемких продуктов этой фирмы.
      Ряд лет пакет считался одним из лучших среди универсальных пакетов углубленного статистического анализа. Однако с современных позиций просматривается его определенное отставание в графике в режиме "высокого разрешения" [10].
      Windows-версия пакета 5.04 подробно описана в [12] и кратко в [44], а 6-я DOS-версия кратко анализируется в [4]. В приложении к эконометрике пакет разобран в работе [52]. Имеются учебные версии пакета, называемые MYSTAT и BUSINESS MYSTAT (см. о них The Economic Journal.1990. Vol. 100, June).
      Последние 6-е версии пакета для среды MS-Windows (выпуск 1996 года) и для среды MS-DOS (выпуск 1995 года) являются первыми версиями пакета, с тех пор как фирму SYSTAT купила корпорация SPSS, Inc.
      Разработчики пакета считают, что SYSTAT-6.0 для среды Windows хорошо сбалансирован по соотношению "мощность/удобство" (см. [9], с. 107).
      Документация SYSTAT
      Документация пакета включает в себя четыре тома. Это ясно и хорошо написанное руководство "Как начать работу", а также руководства по разделам "Графика", "Статистика". Есть также небольшое "Руководство по данным".
      Второй и третий тома дают читателю углубленный взгляд на то, что можно делать и как это можно выполнить в среде пакета. Второй том описывает, как работать с графикой в пакете. Руководство по статистике начинается с обзора методов и включает ссылки на хорошо подобранную библиографию. В методическом плане руководство не уступает добротному учебному курсу по статистическому анализу данных. Инструкции по пошаговой работе, как правило, полезны и точно ведут к цели, а указатель очень полезен для пользователя, начинающего работу с SYSTAT.
      Возможности SYSTAT по управлению данными
      Пакет использует затабулированное окно для ввода данных и их редактирования. Верхняя строка таблицы с данными задает имена переменных, которые должны иметь не более чем 8 символов и оканчиваться на символ $, если данная переменная (признак) имеет неусловную природу. Ввод данных осуществляется без каких-либо ухищрений.
      Имеются хорошие возможности по преобразованиям данных. Однако результаты таких преобразований являются статичными. Функциональные имена в окне преобразований являются кодами, например, XDF и XCF обозначают плотность и кумулятивную функцию распределения случайной величины хи-квадрат. Пропущенные символьные значения кодируются пробелами; пропуски в числовых признаках кодируются отрицательными числами и появляются в редакторе как периодические вещественные числа.
      Графика в пакете SYSTAT
      Пакет обладает прекрасными возможностями отображения на экране исходных данных и полученных результатов разведочного анализа, имея в своем распоряжении около 30 различных способов графического отображения: гистограммы, ящики с "усами", стебли с листьями [47], значки, 2D- и 3D-диаграммы рассеяния и т. д. Кроме того, имеются матрицы диаграмм рассеяния, графики функций и географических карт.
      Кроме того, пакет позволяет порождать и изображать сложные поверхности, что полезно для визуализации сложных функций. В версии 6.0 нажатием кнопки мыши легко вращать даже сложные 3D-графики с координатными осями по отношению к плоскости экрана [53]. Эта же возможность сохраняется и при обработке данных в режиме "реального времени".
      Для многих графиков имеются специальные средства типа стрелки для исследования точек-выбросов, ключи с диапазонами для режима "лупа" или "лассо", для исследования выделенного фрагмента данных. Графика пакета достаточно гибкая, легко управляемая и объектно-ориентированная. Есть возможности интерактивных графических преобразований данных, что очень удобно при разведочном анализе. Также имеются средства разработки презентаций.
      Функциональные достоинства SYSTAT
      SYSTAT обладает хорошей и заслуженной репутацией в плане корректности применяемых алгоритмов. Он имеет обширное меню с функциональными алгоритмами, включая описательную и непараметрическую статистику, корреляцию, кластерный анализ, проверку многомерных гипотез для общей линейной модели (MGLH) и таблицы сопряженности. Пакет особенно силен в областях дисперсионного анализа и планирования экспериментов.
      В версии 6.0 имеется множество дополнительных процедур для дискриминантного анализа, матричной алгебры, логлинейных моделей, планирования экспериментов, структурного анализа и карт контроля качества [4], [5]. Также были добавлены робастные (устойчивые) алгоритмы, дающие точные и корректные результаты при почти вырожденных данных. Кроме того, эта версия предоставляет пользователю наиболее широкие возможности анализа общей линейной статистической модели.
      Критические замечания
      По мнению авторов [44], определенное неудобство работы с пакетом связано с тем, что часть операций доступна лишь из командной строки. В качестве несущественного недостатка версии 5.04 пакета упоминается отсутствие хорошего редактора отчетов, так же как ограничение на число переменных в данных [12] (в версии 5.04 их можно было иметь не более 256, но в версии 6.0 это ограничение уже было снято [53]). Иногда объяснение в руководстве пользователя дается для упрощенного варианта меню, а детали используемого статистического метода приведены только как инструкции к командной строке. Число десятичных разрядов вещественного числа нельзя фиксировать у данной переменной в рабочей таблице, а надо обязательно зафиксировать на всю таблицу целиком. При импорте файлов в версии 5.2.1. возникают проблемы, если в файле есть хотя бы одна переменная - признак с длиной имени, превышающей 8 символов [10].
      Некоторые другие разделы меню содержат в себе меньше информации, чем это было бы нужно для оптимального дружественного интерфейса с пользователем, который характерен для некоторых графических редакторов. В частности, в [12] относительно версии 5.04 делается замечание по поводу надоедающего исчезновения главного меню при попытках управлять программой из определенных подменю.
      Также несколько важных статистических методов решительно не являются дружественными к пользователю (в [12] приводится пример по непарному t-критерию и простому однофакторному дисперсионному анализу). Однако, по мнению [10], [12], несмотря на ряд этих небольших неудобств SYSTAT является превосходной и весьма ценной программой.
      MINITAB
      Пакет MINITAB развивается более 20 лет и широко известен в США, где он является одним из основных учебных пакетов. Во многом, правда, это объясняется не его исключительными свойствами, а тем, что пакет в свое время захватил определенный сегмент рынка. Сейчас распространяется версия 10.0 для среды MS-Windows и уже появилась улучшенная 32-разрядная версия 11.0 [12]. Кроме рассматриваемых платформ, пакет также работает на Macintosh [8] в среде MS-DOS, на рабочих станциях и других компьютерах.
      MINITAB хорошо продуман по разделу описательной (дескриптивной) статистики, хорошо сконструирован и управляется с помощью удобного меню или, по желанию пользователя, через команды, составлять которые помогают диалоговые окна пакета. Часто используемые команды можно запускать по их первой букве. Общее число команд превышает 200 [8]. Можно составлять специальные макросы для выполнения последовательностей команд.
      Импорт/экспорт данных из других Windows-приложений делается через стандартный буфер обмена. В пакете имеются разнообразные возможности по управлению данными.
      Документация пакета включает в себя три тома: 28-страничное руководство для быстрого освоения, 240-страничное руководство пользователя и справочное руководство. Последнее содержит множество примеров и продуманные указатели.
      Пользователь Minitab может легко и быстро научиться решать практически все типовые задачи, в основном из области одномерного анализа и анализа временных рядов. Фирмой Minitab, Inc. хорошо налажены поддержка пользователей и обмен опытом через Группу пользователей MINITAB. Кроме того, фирма весьма недорого продает мини-руководство по пакету для тех студентов, которые, возможно, его не имеют, но хотят больше о нем узнать в рамках своих учебных курсов.
      В области многомерного анализа 8-я версия пакета явно не являлась лидером. Тем не менее, она позволяет находить главные компоненты или же проводить стандартный линейный или даже квадратичный дискриминантный анализ. Однако многомерный анализ был усилен в более поздних версиях.
      Так, в версии 10.0 были добавлены алгоритмы факторного и кластерного анализа. Кроме того, эта версия позволяет получать множество хороших и сложных полноцветных графиков. В плане характеристики мощности MINITAB-10.0 достаточно силен и разнообразен, поэтому говорят, что первые четыре буквы пакета скорее надо поменять на Maxi.
      Недостатком пакета является отсутствие формул для статистик в справочном руководстве, что затрудняет анализ значимости влияния различных факторов на принимаемые решения. Но, с другой стороны, этот справочник изобилует ссылками на стандартные статистические учебники.
      Полагают, что недостатки MINITAB не очень существенны и что он является пакетом с умеренным соотношением "качество/цена".
      STATISTICA/W
      Общая информация
      По мнению авторов [44], пакет STATISTICA/W (ниже Statistica) не стоит использовать пользователю-новичку в статистике, так как он предполагает владение статистической терминологией. Тем не менее, на отечественном рынке этот пакет пользуется популярностью, по-видимому, благодаря высокой активности фирмы-разработчика Statsoft и дилера в России - Softline, способствующих популяризации пакета (см. например, [20]).
      О мощности пакета Statistica/W
      Ряд авторов считает, что пакет Statistica является хорошо сбалансированным по соотношению "мощность/удобство" [4], [5]. Наличие достаточно широкого спектра функциональных алгоритмов делает его достаточно привлекательным для статистиков-профессионалов. Однако существует точка зрения, что удобство работы с этим пакетом является невысоким [10]. В частности, Statistica по своей структуре как бы состоит из нескольких связанных между собой "мини-пакетов". Эти "мини-пакеты" взаимодействуют друг с другом, имея одинаковый формат системных файлов. Так, если нужен раздел линейной регрессии, то приходится покинуть окружение главного модуля СПП и выходить в окружение модуля ("мини-пакета") линейной регрессии.
      В плане функционального наполнения пакет, например, по сравнению с программой STATGRAPHICS, о которой будет сказано ниже, более разнообразен, включая в себя и разделы анализа, которые STATGRAPHICS содержит лишь в дополнительных модулях (поставляемых за дополнительную цену). В частности, он включает в себя ряд непараметрических методов анализа, методы многомерного анализа: дискриминантного, факторного кластерного логлинейного и др.
      Вместе с тем, в пакете Statistica отсутствуют методы планирования экспериментов, графика по методам контроля качества. В целом пакет Statistica по мощности уступает пакетам SAS, SPSS и SYSTAT.
      Особенности управления пакетом
      Средства манипулирования исходными данными в пакете Statistica хорошо развиты. Данные относительно легко отредактировать, можно создавать новые переменные ("признаки"), выбирать отдельные наблюдения или "вырезать" подмножество данных по строкам и/или по столбцам таблицы "объект-признак". Благодаря обширной панели инструментов для выполнения большинства манипуляций достаточно несколько щелчков мыши, так как почти для всех функций пакета здесь имеются пиктограммы. Кроме того, щелчком правой кнопки мыши вызываются дополнительные подменю, которые существенно ускоряют работу с пакетом.
      Полезной особенностью пакета является настройка функций под экран, открытый в текущий момент времени. Так, при загрузке программы в память машины в активном окне возникает список модулей ("мини-пакетов"), доступных пользователю. Отсюда пользователь может самостоятельно решать, какого сорта анализ требуется выполнить. Список модулей и порядок их следования в окне могут быть определены пользователем, что обеспечивает дополнительные удобства и гибкость настройки.
      Связь с другими Windows-приложениями
      Благодаря поддержке DDE в пакете Statistica выполняются те или иные командные сценарии других приложений. Например, можно в Excel написать макрос, который запускает пакет Statistica. После добавления в макрос специальных SQL-команд можно импортировать в пакет данные.
      В версии под Windows также, как для пакетов SPSS или STATGRAPHICS, использование OLE-технологии обмена между Windows-приложениями позволяет интегрировать результаты, например, WinWord и Statistica.
      Графика и документация в пакете Statistica
      Сильной стороной пакета являются графика и средства редактирования графических материалов. В пакете представлены сотни типов графиков 2D или 3D (имеются даже графики типа 4D), матрицы и пиктограммы. Предоставляется возможность разработки собственного дизайна графика.
      Средства управления графиками позволяют работать одновременно с несколькими графиками, изменять размеры сложных объектов, добавлять художественную перспективу и ряд специальных эффектов, разбивку страниц и быструю перерисовку. Например, 3D-графики можно вращать, накладывать друг на друга, сжимать или увеличивать. Передовая анимационная техника, примененная в версии 5.0 и относящаяся скорее к области искусства, позволяет увидеть на графиках, какие точки там изменились под влиянием изменений в одной из переменных.
      Пакет имеет трехтомную документацию в 3000 страниц и краткое руководство. В экранный справочник входит почти весь материал печатной документации. Содержащиеся в документации и экранном справочнике рекомендации полезны, но порой недостаточно полны, а порой - чересчур детальны. Кроме того, они не всегда стыкуются с иерархическим стилем пакета.
      Все универсальные пакеты имеют много пересечений по составу статистических процедур. Кроме того, современные версии программ обладают, как правило, модульной структурой, что позволяет существенно экономить средства. Windows-интерфейс последних версий пакетов во многом унифицирует взаимодействие пользователя с аналитическими, графическими и системными процедурами. Основные отличия кроются главным образом в цене. Кроме того, по-разному организован диалог. Функциональное наполнение пакетов также может варьироваться. Здесь, по мнению авторов, с учетом всех аспектов в лучшую сторону отличается STATGRAPHICS Plus for Windows. Именно поэтому дальнейший материал основан на рассмотрении функций STATGRAPHICS. Вместе с тем, следует отметить, что такие же функции могут быть выполнены практически любым другим пакетом анализа данных, обладающим развитыми средствами интерактивной графики. Фактически, изучив принципы работы STATGRAPHICS Plus for Windows, не составляет особого труда перенести полученные навыки на другие па
      кеты.
     
     

Data Mining: учебный курс (+CD). / В. Дюк, А. Самойленко - СПб: Питер, 2001. - 368 с.

Экономика и управление | Право/a> | Бухгалтерский учет и налоги | Для вас со скидками папка для документов brialdi на выгодных условиях.