Приемы выявления выбросов разведочном анализе. Методы добычи данных. Назначение экспертных систем

  • 05.12.2023

ВЫВОД ИТОГОВ

Таблица 8.3а. Регрессионная статистика
Регрессионная статистика
Множественный R 0,998364
R-квадрат 0,99673
Нормированный R-квадрат 0,996321
Стандартная ошибка 0,42405
Наблюдения 10

Сначала рассмотрим верхнюю часть расчетов, представленную в таблице 8.3а , - регрессионную статистику.

Величина R-квадрат , называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала .

В большинстве случаев значение R-квадрат находится между этими значениями, называемыми экстремальными, т.е. между нулем и единицей.

Если значение R-квадрата близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение R-квадрата , близкое к нулю, означает плохое качество построенной модели.

В нашем примере мера определенности равна 0,99673, что говорит об очень хорошей подгонке регрессионной прямой к исходным данным.

Множественный R - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных (X) и зависимой переменной (Y).

Множественный R равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы.

В простом линейном регрессионном анализе множественный R равен коэффициенту корреляции Пирсона. Действительно, множественный R в нашем случае равен коэффициенту корреляции Пирсона из предыдущего примера (0,998364).

Таблица 8.3б. Коэффициенты регрессии
Коэффициенты Стандартная ошибка t-статистика
Y-пересечение 2,694545455 0,33176878 8,121757129
Переменная X 1 2,305454545 0,04668634 49,38177965
* Приведен усеченный вариант расчетов

Теперь рассмотрим среднюю часть расчетов, представленную в таблице 8.3б . Здесь даны коэффициент регрессии b (2,305454545) и смещение по оси ординат, т.е. константа a (2,694545455).

Исходя из расчетов, можем записать уравнение регрессии таким образом:

Y= x*2,305454545+2,694545455

Направление связи между переменными определяется на основании знаков (отрицательный или положительный) коэффициентов регрессии (коэффициента b).

Если знак при коэффициенте регрессии - положительный, связь зависимой переменной с независимой будет положительной. В нашем случае знак коэффициента регрессии положительный, следовательно, связь также является положительной.

Если знак при коэффициенте регрессии - отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).

В таблице 8.3в . представлены результаты вывода остатков . Для того чтобы эти результаты появились в отчете, необходимо при запуске инструмента "Регрессия" активировать чекбокс "Остатки".

ВЫВОД ОСТАТКА

Таблица 8.3в. Остатки
Наблюдение Предсказанное Y Остатки Стандартные остатки
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

При помощи этой части отчета мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее абсолютное значение

Данная глава продолжает тему главы Построение и анализ таблиц. Мы рекомендуем просмотреть ее, а затем приступить к чтению данного текста и упражнениям на STATISTICA.

Анализ соответствий (по-английски coirespondence analysis) - это разведочный метод анализа, позволяющий визуально и численно исследовать структуру таблиц сопряженности большой размерности.

В настоящее время анализ соответствий интенсивно применяется в разнообразных областях, в частности, в социологии, экономике, маркетинге, медицине, управлении городами (см. например, Thomas Werani, Correspondence Analysis as a Means for Developing City Marketing Strategies, 3rd International Conference on Recent Advances in Retailing and Services Science, p. 22-25, Juni 1996, Telfs-Buchen (Osterreich) Werani, Thomas).

Известны применения метода в археологии, анализе текстов, где важно исследовать структуры данных (см. Greenacre, M. J., 1993, Correspondence Analysis in Practice, London: Academic Press).

В качестве дополнительных примеров приведем:

  • Исследование социальных групп населения в различных регионах со статьями расхода по каждой группе.
  • Исследования результатов голосования в ООН по принципиальным вопросам (1 - за, 0 - против, 0,5 - воздержался, например, в 1967 году исследовалось 127 стран по 13 важным вопросам) показывают, что по первому фактору страны отчетливо разделяются на две группы: одна с центром США, другая с центром СССР (двухполюсная модель мира). Другие факторы могут интерпретироваться как изоляционизм, неучастие в голосовании и т. д.
  • Исследование импорта автомобилей (марка машины - строка таблицы, страна производитель - столбец).
  • Исследование таблиц, используемых в палеонтологии, когда по выборке разрозненных частей скелетов животных делаются попытки их классифицировать (отнести к одному из возможных типов: зебра, лошадь и т. д.).
  • Исследование текстов. Известен следующий экзотический пример: журнал New-Yorker попросил лингвистов установить анонимного автора скандальной книги об одной президентской кампании. Экспертам были предложены тексты 15 возможных авторов и текст анонимного издания. Тексты представлялись строками таблицы. В строке i отмечалось частота данного слова j. Таким образом получалась таблица сопряженности. Методом анализа соответствий был определен наиболее вероятный автор скандального текста.

Применение анализа соответствий в медицине связано с исследованием структуры сложных таблиц, содержащих индикаторные переменные, показывающие наличие или отсутствие у пациента данного симптома. Подобного рода таблицы имеют большую размерность, и исследование их структуры представляет нетривиальную задачу.

Задачи визуализации сложных объектов могут быть также исследованы, по крайней мере, к ним можно найти подход, с помощью анализа соответствий. Изображение - это многомерная таблица, и задача состоит в том, чтобы найти плоскость, позволяющую максимально точно воспроизвести исходное изображение.

Математическое основание метода. Анализ соответствия опирается на статистику хи-квадрат. Можно сказать, что это новая интерпретация статистики хи-квадрат Пирсона.

Метод во многом похож на факторный анализ, однако, в отличие от него, здесь исследуются таблицы сопряженности, а критерием качества воспроизведения многомерной таблицы в пространстве меньшей размерности является значение статистики хи-квадрат. Неформально можно говорить об анализе соответствий как о факторном анализе категориальных данных и рассматривать его также как метод сокращения размерности.

Итак, строки или столбцы исходной таблицы представляются точками пространства, между которыми вычисляется расстояние хи-квадрат (аналогично тому, как вычисляется статистика хи-квадрат для сравнения наблюдаемых и ожидаемых частот).

Далее требуется найти пространство небольшой размерности, как правило, двухмерное, в котором вычисленные расстояния минимально искажаются, и в этом смысле максимально точно воспроизвести структуру исходной таблицы с сохранением связей между признаками (если вы имеете представление о методах многомерного шкалирования, то почувствуете знакомую мелодию).

Итак, мы исходим из обычной таблицы сопряженности, то есть таблицы, в которой сопряжены несколько признаков (подробнее о таблицах сопряженности см. главу Построение и анализ таблиц).

Допустим, что имеются данные о пристрастии к курению сотрудников некоторой компании. Подобные данные имеются в файле Smoking.sta, входящем в стандартный комплект примеров системы STATISTICA.

В этой таблице признак курение сопряжен с признаком должность:

Группа сотрудников

(1) Некурящие

(2) Слабо курящие

(3) Средне курящие

(4) Сильно курящие

Всего по строке

(1) Старшие менеджеры

(2) Младшие менеджеры

(3) Старшие сотрудники

(4) Младшие сотрудники

(5) Секретари

Всего по столбцу

Это простая двухвходовая таблица сопряженности. Вначале рассмотрим строки.

Можно считать, что 4 первых числа каждой строки таблицы (маргинальные частоты, то есть последний столбец не учитывается) являются координатами строки в 4-мерном пространстве, а значит, формально можно вычислить расстояния хи-квадрат между этими точками (строками таблицы).

При данных маргинальных частотах можно отобразить эти точки в пространстве размерности 3 (число степеней свободы равно 3).

Очевидно, что чем меньше расстояние, тем больше сходство между группами, и наоборот - чем больше расстояния, тем больше различие.

Теперь предположим, что можно найти пространство меньшей размерности, например, размерности 2, для представления точек-строк, которое сохраняет всю или, точнее, почти всю информацию о различиях между строками.

Возможно, такой подход неэффективен для таблиц небольшой размерности, как приведенная выше, однако полезен для больших таблиц, возникающих, например, в маркетинговых исследованиях.

Например, если записаны предпочтения 100 респондентов при выборе 15 сортов пива, то в результате применения анализа соответствий можно представить 15 сортов (точек) на плоскости (см. далее анализ продаж). Анализируя расположение точек, вы увидите закономерности при выборе пива, которые будут полезны при проведении маркетинговой кампании.

В анализе соответствий используется определенный сленг.

Масса . Наблюдения в таблице нормируются: вычисляются относительные частоты для таблицы, сумма всех элементов таблицы становится равной 1 (каждый элемент делится на общее число наблюдений, в данном примере на 193). Создается аналог двухмерной плотности распределения. Полученная стандартизованная таблица показывает, как распределена масса по ячейкам таблицы или по точкам пространства. На сленге анализа соответствий суммы по строкам и столбцам в матрице относительных частот называются массой строки и столбца соответственно.

Инерция. Инерция определяется как значение хи-квадрат Пирсона для двух-входовой таблицы, деленный на общее количество наблюдений. В данном примере: общая инерция = 2 /193 - 16,442.

Инерция и профили строк и столбцов. Если строки и столбцы таблицы полностью независимы (между ними нет связи - например, курение не зависит от должности), то элементы таблицы могут быть воспроизведены при помощи сумм по строкам и столбцам или, в терминологии анализа соответствий, при помощи профилей строк и столбцов (с использованием маргинальных частот; см. главу Построение и анализ таблиц с описанием критерия хи-квадрат Пирсона и точный критерий Фишера).

В соответствии с известной формулой вычисления хи-квадрат для двухвходовых таблиц ожидаемые частоты таблицы, в которой столбцы и строки независимы, вычисляются перемножением соответствующих профилей столбцов и строк с делением полученного результата на общую сумму.

Любое отклонение от ожидаемых величин (при гипотезе о полной независимости переменных по строкам и столбцам) будет давать вклад в статистику хи-квадрат.

Анализ соответствий можно рассматривать как разложение статистики хи-квадрат на компоненты с целью определения пространства наименьшей размерности, позволяющего представить отклонения от ожидаемых величин (см. таблицу ниже).

Здесь показаны таблицы с ожидаемыми частотами, рассчитанными при гипотезе независимости признаков, и наблюдаемыми частотами, а также таблица вкладов ячеек в хи-квадрат:


Например, из таблицы видно, что число некурящих младших сотрудников примерно на 10 меньше, чем можно было бы ожидать при гипотезе независимости. Число некурящих старших сотрудников, наоборот, на 9 больше, чем молено было бы ожидать при гипотезе независимости, и т. д. Однако хотелось бы иметь общую картину.

Цель анализа соответствий состоит в том, чтобы суммировать эти отклонения от ожидаемых частот не в абсолютных, а в относительных единицах.


Анализ строк и столбцов. Вместо строк таблицы можно рассматривать также столбцы и представить их точками в пространстве меньшей размерности, которое максимально точно воспроизводит сходство (и расстояния) между относительными частотами для столбцов таблицы. Можно одновременно отобразить на одном графике столбцы и строки, представляющие всю информацию, содержащуюся в двухвходовой таблице. И этот вариант - самый интересный, так как позволяет провести содержательный анализ результатов.

Результаты. Результаты анализа соответствий обычно представляются в виде графиков, как было показано выше, а также в виде таблиц типа:

Число измерений

Процент инерции

Кумулятивный процент

Хи-квадрат

Посмотрите на эту таблицу. Как вы помните, цель анализа - найти пространство меньшей размерности, восстанавливающее таблицу, при этом критерием качества является нормированный хи-квадрат, или инерция. Можно заметить, что если в рассматриваемом примере использовать одномерное пространство, то есть одну ось, можно объяснить 87,76% инерции таблицы.


Две размерности позволяют объяснить 99,51% инерции.

Координаты строк и столбцов. Рассмотрим получившиеся координаты в двухмерном пространстве.

Имя строки

Изменение 1

Изменение 2

Старшие менеджеры

Младшие менеджеры

Старшие сотрудники

Младшие сотрудники

Секретари

Можно изобразить это на двухмерной диаграмме.


Очевидным преимуществом двухмерного пространства является то, что строки, отображаемые в виде близких точек, близки друг к другу и по относительным частотам.

Рассматривая положение точек по первой оси, можно заметить, что Ст. сотрудники и Секретари относительно близки по координатам. Если же обратить внимание на строки таблицы относительных частот (частоты стандартизованы так, что их сумма по каждой строке равна 100%), то сходство данных двух групп по категориям интенсивности курения становится очевидным.

Проценты по строке:

Категории курящих

Группа сотрудников

(1) Некурящие

(2) Слабо курящие

(3) Средне курящие

(4) Сильно курящие

Всего по строке

(1) Старшие менеджеры

(2) Младшие менеджеры

(3) Старшие сотрудники

(4) Младшие сотрудники

(5} Секретари

Окончательной целью анализа соответствий является интерпретация векторов в полученном пространстве более низкой размерности. Одним из способов, который может помочь в интерпретации полученных результатов, является представление на диаграмме столбцов. В следующей таблице показаны координаты столбцов:

Измерение 1

Измерение 2

Некурящие

Слабо курящие

Средне курящие

Сильно курящие

Можно сказать, что первая ось дает градацию интенсивности курения. Следовательно, большую степень сходства между Старшими менеджерами и Секретарями можно объяснить наличием в данных группах большого количества Некурящих.

Метрика координатной системы. В ряде случаев термин расстояние использовался для обозначения различий между строками и столбцами матрицы относительных частот, которые, в свою очередь, представлялись в пространстве меньшей размерности в результате использования методов анализа соответствий.

В действительности расстояния, представленные в виде координат в пространстве соответствующей размерности, - это не просто евклидовы расстояния, вычисленные по относительным частотам столбцов и строк, а некоторые взвешенные расстояния.

Процедура подбора весов устроена таким образом, чтобы в пространстве более низкой размерности метрикой являлась метрика хи-квадрат, учитывая, что сравниваются точки-строки и выбирается стандартизация профилей строк или стандартизация профилей строк и столбцов или же сравниваются точки-столбцы и выбирается стандартизация профилей столбцов или стандартизация профилей строк и столбцов.

Оценка качества решения. Имеются специальные статистики, помогающие оценить качество полученного решения. Все или большинство точек должны быть правильно представлены, то есть расстояния между ними в результате применения процедуры анализа соответствий не должны искажаться. В следующей таблице показаны результаты вычисления статистик по имеющимся координатам строк, основанные только на одномерном решении в предыдущем примере (то есть только одно измерение использовалось для восстановления профилей строк матрицы относительных частот).

Координаты и вклад в инерцию строки:

Относит инерция.

Инерция измер.1

Косинус**2 измер.1

Старшие менеджеры

Младшие менеджеры

Старшие сотрудники

Младшие сотрудники

Секретари

Координаты. Первый столбец таблицы результатов содержит координаты, интерпретация которых, как уже отмечалось, зависит от стандартизации. Размерность выбирается пользователем (в данном примере мы выбрали одномерное пространство), и координаты отображаются для каждого измерения (то есть отображается по одному столбцу координат на каждую ось).

Масса. Масса содержит суммы всех элементов для каждой строки матрицы относительных частот (то есть для матрицы, где каждый элемент содержит соответствующую массу, как уже упоминалось выше).

Если в качестве метода стандартизации выбрана опция Профили строк или опция Профили строк и столбцов , которая установлена по умолчанию, то координаты строк вычисляются по матрице профилей строк. Другими словами, координаты вычисляются на основе матрицы условных вероятностей, представленной в столбце Масса .

Качество. Столбец Качество содержит информацию о качестве представления соответствующей точки-строки в координатной системе, определяемой выбранной размерностью. В рассматриваемой таблице было выбрано только одно измерение, поэтому числа в столбце Качество являются качеством представления результатов в одномерном пространстве. Видно, что качество для старших менеджеров очень низкое, но высокое для старших и младших сотрудников и секретарей.

Отметим еще раз, что в вычислительном плане целью анализа соответствий является представление расстояний между точками в пространстве более низкой размерности.

Если используется максимальная размерность (равная минимуму числа строк и столбцов минус один), можно воспроизвести все расстояния в точности.

Качество точки определяется как отношение квадрата расстояния от данной точки до начала координат, в пространстве выбранной размерности, к квадрату расстояния до начала координат, определенному в пространстве максимальной размерности (в качестве метрики в этом случае выбрана метрика хи-квадрат, как уже упоминалось ранее). В факторном анализе имеется аналогичное понятие общность.

Качество, вычисляемое системой STATISTICA, не зависит от выбранного метода стандартизации и всегда использует стандартизацию, установленную по умолчанию (то есть метрикой расстояния является хи-квадрат, и мера качества может интерпретироваться как доля хи-квадрат, определяемая соответствующей строкой в пространстве соответствующей размерности).

Низкое качество означает, что имеющееся число измерений недостаточно хорошо представляет соответствующую строку (столбец).

Относительная инерция. Качество точки (смотри выше) представляет отношение вклада данной точки в общую инерцию (Хи-квадрат), что может объяснять выбранную размерность.

Качество не отвечает на вопрос, насколько в действительности и в каких размерах соответствующая точка вносит вклад в инерцию (величину хи-квадрат).

Относительная инерция представляет долю общей инерции, принадлежащую данной точке, и не зависит от выбранной пользователем размерности. Отметим, что какое-либо частное решение может достаточно хорошо представлять точку (высокое качество), но та же точка может вносить очень малый вклад в общую инерцию (то есть точка-строка, элементами которой являются относительные частоты, имеет сходство с некоторой строкой, элементы которой представляют собой среднее по всем строкам).

Относительная инерция для каждой размерности. Данный столбец содержит относительный вклад соответствующей точки-строки в величину инерции, обусловленный соответствующей размерностью. В отчете данная величина приводится для каждой точки (строки или столбца) и для каждого измерения.

Косинус**2 (качество, или квадратичные корреляции с каждой размерностью). Данный столбец содержит качество для каждой точки, обусловленное соответствующей размерностью. Если просуммировать построчно элементы столбцов косинус**2 для каждой размерности, то в результате получим столбец величин Качество, о которых уже упоминалось выше (так как в рассматриваемом примере была выбрана размерность 1, то столбец Косинус 2 совпадает со столбцом Качество). Эта величина может интерпретироваться как «корреляция» между соответствующей точкой и соответствующей размерностью. Термин Косинус**2 возник по причине того, что данная величина является квадратом косинуса угла, образованного данной точкой и соответствующей осью.

Дополнительные точки. Помощь в интерпретации результатов может оказать включение дополнительных точек-строк или столбцов, которые на первоначальном этапе не участвовали в анализе. Имеется возможность для включения как дополнительных точек-строк, так и дополнительных точек-столбцов. Можно также отображать дополнительные точки вместе с исходными на одной диаграмме. Например, рассмотрим следующие результаты:

Группа сотрудников

Измерение 1

Измерение 2

Старшие менеджеры

Младшие менеджеры

Старшие сотрудники

Младшие сотрудники

Секретари

Национальное среднее

Данная таблица отображает координаты (для двух размерностей), вычисленные для частотной таблицы, состоящей из классификации степени пристрастия к курению среди сотрудников различных должностей.

Строка Национальное среднее содержит координаты дополнительной точки, которая является средним уровнем (в процентах), подсчитанным по различным национальностям курящих. В данном примере это чисто модельные данные.

Если вы построите двухмерную диаграмму групп сотрудников и Национального среднего, то сразу убедитесь в том, что данная дополнительная точка и группа Секретари очень близки друг к другу и расположены по одну сторону горизонтальной оси координат с категорией Некурящие (точкой-столбцом). Другими словами, выборка, представленная в исходной частотной таблице, содержит больше курящих, чем Национальное среднее.

Хотя такое же заключение можно сделать, взглянув на исходную таблицу сопряженности, в таблицах больших размеров подобные выводы, конечно, не столь очевидны.

Качество представления дополнительных точек. Еще одним интересным результатом, касающимся дополнительных точек, является интерпретация качества, представления при заданной размерности.

Еще раз отметим, что целью анализа соответствий является представление расстояний между координатами строк или столбцов в пространстве более низкой размерности. Зная, как решается данная задача, необходимо ответить на вопрос, является ли адекватным (в смысле расстояний до точек в исходном пространстве) представление дополнительной точки в пространстве выбранной размерности. Ниже представлены статистики для исходных точек и для дополнительной точки Национальное среднее применительно к задаче в двухмерном пространстве.

Младшие менеджеры0,9998100,630578

Напомним, что качество точек-строк или столбцов определено как отношение квадрата расстояния от точки до начала координат в пространстве сниженной размерности к квадрату расстояния от точки до начала координат в исходном пространстве (в качестве метрики, как уже отмечалось, выбирается расстояние хи-квадрат).

В определенном смысле качество является величиной, объясняющей долю квадрата расстояния до центра тяжести исходного облака точек.

Дополнительная точка-строка Национальное среднее имеет качество, равное 0,76. Это означает, что данная точка достаточно хорошо представлена в двухмерном пространстве. Статистика Косинус**2 - это качество представления соответствующей точки-строки, обусловленное выбором пространства заданной размерности (если просуммировать построчно элементы столбцов Косинус 2 для каждого измерения, то в результате мы придем к величине Качество, полученной ранее).

Графический анализ результатов. Это самая важная часть анализа. По существу вы можете забыть о формальных критериях качества, однако руководствоваться некоторыми простыми правилами, позволяющими понимать графики.

Итак, на графике представляются точки-строки и точки, столбцы. Хорошим тоном является представление и тех и других точек (мы ведь анализируем связи строк и столбцов таблицы!).

Обычно горизонтальная ось соответствует максимальной инерции. Около стрелки показан процент общей инерции, объясняемый данным собственным значением. Часто указывают также соответствующие собственные значения, взятые из таблицы результатов. Пересечение двух осей - это центр тяжести наблюдаемых точек, соответствующий средним профилям. Если точки принадлежат одному и тому же типу, то есть являются либо строками, либо столбцами, то чем меньше расстояние между ними, тем теснее связь. Для того чтобы установить связь между точками разного типа (между строками и столбцами), следует рассмотреть углы между ними с вершиной в центре тяжести.

Общее правило визуальной оценки степени зависимости заключается в следующем.

  • Рассмотрим 2 произвольные точки разного типа (строки и столбцы таблицы).
  • Соединим их отрезками прямых с центром тяжести (точка с координатами 0,0).
  • Если образовавшийся угол острый, то строка и столбец положительно коррелированы.
  • Если образовавшийся угол тупой, то корреляция между переменными отрицательная.
  • Если угол прямой, корреляция отсутствует.

Рассмотрим анализ конкретных данных в системе STATISTICA.

Пример 1 (анализ курильщиков)

Шаг 1 . Запустите модуль Анализ соответствий.

В стартовой панели модуля имеются 2 вида анализа: анализ соответствий и многомерный анализ соответствий.

Выберите Анализ соответствий. Многомерный анализ соответствий будет рассмотрен в следующем примере.

Шаг 2. Откройте файл данных smoking.sta папки Examples.


Файл уже представляет собой таблицу сопряженности, поэтому табуляция не требуется. Выберите вид анализа - Частоты без группирующей переменной.

Шаг 3 . Нажмите кнопку Переменные с частотами и выберите переменные для анализа.

В данном примере выберите все переменные.


Шаг 4. Нажмите OK и запустите вычислительную процедуру. На экране появится окно с результатами.


Шаг 5. Рассмотрим результаты с помощью опций данного окна.

Обычно сначала рассматриваются графики, для чего имеется группа кнопок График координат.

Графики доступны для строк и столбцов, а также для строк и столбцов одновременно.

Размерность максимального простарнства задается в опции Размерность .

Наиболее интересна размерность 2. Заметьте, что на графике, особенно если имеется множество данных, метки могут накладываться друг на друга, поэтому может быть полезной опция Сократить метки.

Нажмите третью кнопку 2М в диалоговом окне. На экране появится график:


Заметьте, что на графике представлены оба фактора: группа сотрудников - строки и интенсивность курения - столбцы.

Соедините отрезком прямой категорию СТАРШИЕ СОТРУДНИКИ, а также категорию НЕТ с центром тяжести.

Образовавшийся угол будет острым, что на языке анализа соответствий говорят о наличии положительной корреляции между этими признаками (просмотрите исходную таблицу, чтобы убедиться в этом).

Координаты строк и столбцов можно посмотреть и в численном виде с помощью кнопки Координаты строк и столбцов .


Используя кнопку Собственные значения , можно увидеть разложение статистики хи-квадрат по собственным значениям.

Опция График только выбранных измерений позволяет просмотреть координаты точек по выбранным осям.

Группа опцийПросмотр таблиц в правой части окна позволяет просмотреть исходную и ожидаемую таблицу сопряженности, разности между частотами и другие параметры, вычисленные при гипотезе независимости табулированных признаков (см главу Построение и анализ таблиц, критерий хи-квадрат).

Таблицы большой размерности лучше всего исследовать постепенно, вводя по мере надобности дополнительные переменные. Для этого предусмотрены опции: Добавить точки-строки, Добавить точки-столбцы.

Пример 2 (анализ продаж)

В главе Анализ и построение таблиц был рассмотрен пример, связанный с анализом продаж. Применим к данным анализ соответствий.

Ранее отмечалось, что вопрос, какие именно покупки произвел покупатель при условии, что куплено 3 товара, является сложным.

Действительно, всего мы имеем 21 продукт. Чтобы просмотреть все таблицы сопряженности, требуется выполнить 21×20×19 = 7980 действий. Число действий катастрофически возрастает при увеличении товаров и количества признаков. Применим анализ соответствий. Откроем файл данных с индикаторными переменными, отмечающими купленный продукт.


В стартовой панели модуля выберем Многомерный анализ соответствий.


Зададим условие выбора наблюдений.


Это условие позволяет выбрать покупателей, сделавших ровно 3 покупки.

Поскольку мы имеем дело с нетабулированными данными, выберем вид анализа Исходные данные (требуется табуляция).

Для удобства дальнейшего графического представления выберем небольшое количество переменных. Выберем также дополнительные переменные (см; окно ниже).


Запустим вычислительную процедуру.


В появившемся окнеРезультаты многомерного анализа соответствий просмотрим результаты.

С помощью кнопки 2М выводится двухмерный график переменных.

На этом графике дополнительные переменные отмечены красными точками, что удобно для визуального анализа.

Заметьте, что каждая переменная имеет признак 1, если товар куплен, и признак 0, если товар не куплен.

Рассмотрим график. Выберем, например, близкие пары признаков.

В итоге получим следующее:


Аналогичные исследования можно провести и для других данных, когда отсутствуют какие-либо априорные гипотезы о зависимостях в данных.

STATISTICA предлагает широкий выбор методов разведочного статистического анализа. Система может вычислить практически все описательные статистики, включая медиану, моду, квартили, определенные пользователем процентили, средние и стандартные отклонения, доверительные интервалы для среднего, коэффициенты асимметрии, эксцесса (с их стандартными ошибками), гармоническое и геометрическое среднее, а также многие другие описательные статистики. Возможен выбор критериев для тестирования нормальности распределения (критерий Колмогорова-Смирнова, Лилиефорса, Шапиро-Уилкса). Широкий выбор графиков помогает проведению разведочного анализа.

2. Корреляции.

Этот раздел включает большое количество средств, позволяющих исследовать зависимости между переменными. Возможно вычисление практически всех общих мер зависимости, включая коэффициент корреляции Пирсона, коэффициент ранговой корреляции Спирмена, Тау (Ь,с) Кендалла, Гамма, коэффициент сопряженности признаков С и многие другие..

Корреляционные матрицы могут быть вычислены и для данных с пропусками, используя специальные методы обработки пропущенных значений.

Специальные графические возможности позволяют выбрать отдельные точки на диаграмме рассеяния и оценить их вклад в регрессионную кривую или любую другую кривую, подогнанную к данным.

3. t - критерии (и другие критерии для групповых различий).

Процедуры позволяют вычислить t-критерии для зависимых и независимых выборок, а также статистика Хоттелинга (см. также ANOVA/MANOVA).

4. Таблицы частот и таблицы кросстабуляций.

В модуле содержится обширный набор процедур, обеспечивающих табулирование непрерывных, категориальных, дихотомических переменных, переменных, полученных в результате многовариативных опросов. Вычисляются как кумулятивные, так и относительные частоты. Доступны тесты для кросстабулированных частот. Вычисляются статистики Пирсона, максимального правдоподобия, Иегс-коррекция, хи-квадрат, статистики Фишера, Макнемера и многие другие.

Модуль «Множественная регрессия»

Модуль «Множественная регрессия» включает в себя исчерпывающий набор средств множественной линейной и фиксированной нелинейной (в частности, полиномиальной, экспоненциальной, логарифмической и др.) регрессии, включая пошаговые, иерархические и другие методы, а также ридж-регрессию.

Система STATISTICA позволяет вычислить всесторонний набор статистик и расширенной диагностики, включая полную регрессионную таблицу, частные и частичные корреляции и ковариации для регрессионных весов, матрицы прогонки, статистику Дарбина-Ватсона, расстояния Махаланобиса и Кука, удаленные остатки и многие другие. Анализ остатков и выбросов может быть проведен при помощи широкого набора графиков, включая разнообразные точечные графики, графики частичных корреляций и многие другие. Система прогноза позволяет пользователю выполнять анализ "что - если". Допускаются чрезвычайно большие регрессионные задачи (до 300 переменных в процедуре разведочной регрессии). STATISTICA также содержит «Модуль нелинейного оценивания», с помощью которого могут быть оценены практически любые определенные пользователем нелинейные модели, включая логит, пробит регрессию и др.

Модуль «Дисперсионный анализ». Общий ANOVA/MANOVA модуль

ANOVA/MANOVA модуль представляет собой набор процедур общего одномерного и многомерного дисперсионного и ковариационного анализа.

В модуле представлен самый широкий выбор статистических процедур для проверки основных предположений дисперсионного анализа, в частности, критерии Бартлетта, Кохрана, Хартли, Бокса и других.

Модуль «Дискриминантный анализ»

Методы дискриминантного анализа позволяют построить на основе ряда предположений классификационное правило отнесения объекта к одному из нескольких классов, минимизируя некоторый разумный критерий, например, вероятность ложной классификации или заданную пользователем функцию потерь. Выбор критерия определяется пользователем из соображений ущерба, который он понесет из-за ошибок классификации.

Модуль дискриминантного анализа системы STATISTICA содержит полный набор процедур для множественного пошагового функционального дискриминантного анализа. STATISTICA позволяет выполнять пошаговый анализ, как вперед, так и назад, а также внутри определенного пользователем блока переменных в модели.

Модуль «Непараметрическая статистика и подгонка распределений»

Модуль содержит обширный набор непараметрических критериев согласия, в частности, критерий Колмогорова-Смирнова, ранговые критерии Манна-Уитни, Валь-да-Вольфовица, Вилкоксона и многие другие.

Все реализованные ранговые критерии доступны в случае совпадающих рангов и используют поправки для малых выборок.

Статистические процедуры модуля позволяют пользователю легко сравнить распределение наблюдаемых величин с большим количеством различных теоретических распределений. Вы можете подогнать к данным нормальное, равномерное, линейное, экспоненциальное, Гамма, логнормальное, хи-квадрат, Вейбулла, Гомпертца, биномиальное, Пуассоновское, геометрическое распределения, распределение Бернулли. Точность подгонки оценивается с помощью критерия хи-квадрат или одновыборочного критерия Колмогорова-Смирнова (параметры подгонки могут контролироваться); также поддерживаются тесты Лиллифорса и Шапиро-Уилкса.

Модуль «Факторный анализ»

Модуль факторного анализа содержит широкий набор методов и опций, снабжающих пользователя исчерпывающими средствами факторного анализа.

Он, в частности, включает в себя метод главных компонент, метод минимальных остатков, метод максимального правдоподобия и др. с расширенной диагностикой и чрезвычайно широким набором аналитических и разведочных графиков. Модуль может выполнять вычисление главных компонент общего и иерархического факторного анализа с массивом, содержащим до 300 переменных. Пространство общих факторов может быть выведено на график и просмотрено либо "ломтик за ломтиком", либо на 2- или 3-мерных диаграммах рассеяния с помеченными переменными-точками.

После того как решение определено, пользователь может пересчитать корреляционную матрицу от соответствующего числа факторов для того, чтобы оценить качество построенной модели.

Кроме того, STATISTICA содержит модуль «Многомерное шкалирование», модуль «Анализ надежности», модуль «Кластерный анализ», модуль «Лог-линейный анализ», модуль «Нелинейное оценивание», модуль «Каноническая корреляция», модуль «Анализ длительностей жизни», модуль «Анализ временных рядов и прогнозирование» и другие.

Численные результаты статистического анализа в системе STATISTICA выводятся в виде специальных электронных таблиц, которые называются таблицами вывода результатов - ScroHsheets ™. Таблицы Scrollsheet могут содержать любую информацию (как численную, так и текстовую), от короткой строчки до мегабайтов результатов. В системе STATISTICA эта информация выводится в виде последовательности (очереди), которая состоит из набора таблиц Scrollsheet и графиков.

STATISTICA содержит большое количество инструментов для удобного просмотра результатов статистического анализа и их визуализации. Они включают в себя стандартные операции по редактированию таблицы (включая операции над блоками значений, Drag-and-Drop - "Перетащить и опустить", автозаполнение блоков и др.), операции удобного просмотра (подвижные границы столбцов, разделение прокрутки в таблице и др.), доступ к основным статистикам и графическим возможностям системы STATISTICA. При выводе целого ряда результатов (например, корреляционной матрицы) STATISTICA отмечает значимые коэффициенты корреляции цветом. Пользователь так же имеет возможность выделить при помощи цвета необходимые значения в таблице Scrollsheet.

Если пользователю необходимо провести детальный статистический анализ промежуточных результатов, то можно сохранить таблицу Scrollsheet в формате файла данных STATISTICA и далее работать с ним, как с обычными данными.

Кроме вывода результатов анализа в виде отдельных окон с графиками и таблицами Scrollsheet на рабочем пространстве системы STATISTICA, в системе имеется возможность создания отчета, в окно которого может быть выведена вся эта информация. Отчет - это документ (в формате RTF), который может содержать любую текстовую или графическую информацию. В STATISTICA имеется возможность автоматического создания отчета, так называемого автоотчета. При этом любая таблица Scrollsheet или график могут автоматически быть направлены в отчет.

), и др. Более того, появление быстрых современных компьютеров и свободного программного обеспечения (вроде R) сделало все эти требующие вычислительных ресурсов методы доступными практически для каждого исследователя. Однако такая доступность еще больше обостряет хорошо известную проблему всех статистических методов, которую на английском языке часто описывают как "rubbish in, rubbish out ", т.е. "мусор на входе - мусор на выходе". Речь здесь идет о следующем: чудес не бывает, и если мы не будем уделять должного внимания тому, как тот или иной метод работает и какие требования предъявляет к анализируемым данным, то получаемые с его помощью результаты нельзя будет воспринимать всерьез. Поэтому каждый раз исследователю следует начинать свою работу с тщательного ознакомления со свойствами полученных данных и проверки необходимых условий применимости соответствующих статистических методов. Этот начальный этап анализа называют разведочным (Exploratory Data Analysis ).

В литературе по статистике можно найти немало рекомендаций по выполнению разведочного анализа данных (РДА). Два года назад в журнале Methods in Ecology and Evolution была опубликована отличная статья, в которой эти рекомендации сведены в единый протокол по выполнению РДА: Zuur A. F., Ieno E. N., Elphick C. S. (2010) A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution 1(1): 3-14 . Несмотря на то, что статья написана для биологов (в частности, для экологов), изложенные в ней принципы, безусловно, верны и в отношении других научных дисциплин. В этом и последующих сообщениях блога я приведу выдержки из работы Zuur et al. (2010) и опишу предложенный авторами РДА-протокол. Подобно тому, как это сделано в оригинальной статье, описание отдельных шагов протокола будет сопровождаться краткими рекомендациями по использованию соответствующих функций и пакетов системы R.

Предлагаемый протокол включает следующие основные элементы:

  1. Формулировка исследовательской гипотезы. Выполнение экспериментов/наблюдений для сбора данных.
  2. Разведочный анализ данных:
    • Выявление точек-выборосов
    • Проверка однородности дисперсий
    • Проверка нормальности распределения данных
    • Выявление избыточного количества нулевых значений
    • Выявление коллинеарных переменных
    • Выявление характера связи между анализируемыми переменными
    • Выявление взаимодействий между переменными-предикторами
    • Выявление пространственно-временных корреляций среди значений зависимой переменной
  3. Применение соответствующего ситуации статистического метода (модели).

Zuur et al. (2010) отмечают, что РДА наиболее эффективен при использовании разнообразных графических средств, поскольку графики часто позволяют лучше понять структуру и свойства анализируемых данных, чем формальные статистические тесты.

Рассмотрение приведенного РДА-протокола начнем с выявления точек-выбросов . Чувствительность разных статистических методов к наличию выбросов в данных неодинакова. Так, при использовании обобщенной линейной модели для анализа зависимой переменной, распределенной по закону Пуассона (например, количество случаев какого-либо заболевания в разных городах), наличие выбросов может вызвать избыточную дисперсию, что сделает модель неприменимой. В то же время при использовании непараметрического многомерного шкалирования , основанного на индексе Жаккара , все исходные данные переводятся в номинальную шкалу с двумя значениями (1/0), и наличие выбросов никак не сказывается на результат анализа. Исследователь должен четко понимать эти различия между разными методами и при необходимости выполнять проверку на наличие выборосов в данных. Дадим рабочее определение: под "выбросом" мы будем понимать наблюдение, которое "слишком" велико или "слишком" мало по сравнению с большинством других имеющихся наблюдений.

Обычно для выявления выбросов используют диаграммы размахов . В R при построении диаграмм размахов используются устойчивые (робастные) оценки центральной тенденции (медиана) и разброса (интерквартильный размах, ИКР). Верхний "ус" простирается от верхней границы "ящика" до наибольшего выборочного значения, находящегося в пределах расстояния 1.5 х ИКР от этой границы. Аналогично, нижний "ус" простирается от нижней границы "ящика" до наименьшего выборочного значения, находящегося в пределах расстояния 1.5 х ИКР от этой границы. Наблюдения, находящиеся за пределами "усов", рассматриваются как потенциальные выбросы (Рисунок 1).

Рисунок 1. Строение диаграммы размахов.

Примеры функций из R, служащих для построения диаграмм размахов:
  • Базовая функция boxplot() (подробнее см. ).
  • Пакет ggplot2 : геометрический объект ("geom ") boxplot . Например:
    p <- ggplot (mtcars, aes(factor(cyl), mpg)) p + geom_boxplot() # или: qplot (factor(cyl), mpg, data = mtcars, geom = "boxplot" )
Другим очень полезным, но, к сожалению, недостаточно используемым графическим средством выявления выборосов является точечная диаграмма Кливленда . На таком графике по оси ординат откладывают порядковые номера отдельных наблюдений, а по оси абсцисс - значения этих наблюдений. Наблюдения, "значительно" выделяющиеся из основного облака точек, потенциально могут быть выбросами (Рисунок 2).

Рисунок 2. Точечная диаграмма Кливленда, изображающая данные о длине крыла у 1295 воробьев (Zuur et al. 2010) . В этом примере данные предварительно были упорядочены в соответствии с весом птиц, и поэтому облако точек имеет примерно S-образную форму.


На Рисунке 2 хорошо выделяется точка, соответствующая длине крыла 68 мм. Однако это значение длины крыла не следует рассматривать в качестве выброса, поскольку оно лишь незначительно отличается от других значений длины. Эта точка выделяется на общем фоне лишь потому, что исходные значения длины крыла были упорядочены по весу птиц. Соответственно, выброс скорее стоит искать среди значений веса (т.е. очень высокое значение длины крыла (68 мм) было отмечено у необычно мало весящего для этого воробья).

До этого момента мы называли "выбросом" наблюдение, которое "значительно" отличается от большинства других наблюдений в исследуемой совокупности. Однако более строгий подход к определению выбросов состоит в оценке того, какое влияние эти необычные наблюдения оказывают на результаты анализа. При этом следует делать различие между необычными наблюдениями для зависимых и независимых переменных (предикторов). Например, при изучении зависимости численности какого-либо биологического вида от температуры большинство значений температуры может лежать в пределах от 15 до 20 °С, и лишь одно значение может оказаться равным 25 °С. Такой план эксперимента, мягко говоря, неидеален, поскольку диапазон температур от 20 до 25 °С будет исследован неравномерно. Однако при проведении реальных полевых исследований возможность выполнить измерения для высокой температуры может представиться только однажды. Что же тогда делать с этим необычным измерением, выполненным при 25 °С? При большом объеме наблюдений подобные редкие наблюдения можно исключить из анализа. Однако при относительно небольшом объеме данных еще большее его уменьшение может быть нежелательным с точки зрения статистической значимости получаемых результатов. Если удаление необычных значений предиктора по тем или иным причинам не представляется возможным, помочь может определенное преобразование этого предиктора (например, логарифмирование).

С необычными значениями зависимой переменной "бороться" сложнее, особенно при построении регрессионных моделей. Преобразование путем, например, логарифмирования, может помочь, но поскольку зависимая переменная представляет особый интерес при построении регрессионных моделей, лучше попытаться подобрать метод анализа, который основан на распределении вероятностей , допускающем больший разброс значений для больших средних величин (например, гамма-распределение для непрерывных переменных или распределение Пуассона для дискретных количественных переменных). Такой подход позволит работать с исходными значениями зависимой переменной.

В конечном счете решение об удалении необычных значений из анализа принимает сам исследователь. При этом он должен помнить о том, что причины для возникновения таких наблюдений могут быть разными. Так, удаление выбросов, возникших из-за неудачного планирования эксперимента (см. выше пример с температурой), может быть вполне оправданным. Оправданным будет также удаление выбросов, явно возникших из-за ошибок при выполнении измерений. В то же время необычные наблюдения среди значений зависимой переменной могут потребовать более тонкого подхода, особенно если они отражают естественную вариабельность этой переменной. В этой связи важно вести подробное документирование условий, при которых происходит экспериментальная часть исследования - это может помочь интерпретировать "выбросы" в ходе анализа данных. Независимо от причин возникновения необычных наблюдений, в итоговом научном отчете (например, в статье) важно сообщить читателю как о самом факте выявления таких наблюдений, так и о принятых в их отношении мерах.

1. Понятие интеллектуального анализа данных. Методы Data Mining.

Ответ: Интеллектуальный анализ данных (англ. Data Mining) - выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Как правило подразделяется на задачи классификации, моделирования и прогнозирования. Процесс автоматического поиска закономерностей в больших массивах данных. Термин Data Mining веден Григорием Пятецким-Шапиро в 1989 г.

2. Понятие разведочного анализа данных. В чем отличие процедуры Data Mining от методов классического статистического анализа данных?

Ответ: Разведочных анализ данных (РАД) применяется для нахождения систематических связей между переменными в ситуациях, когда отсутствуют (или имеются недостаточные) априорные представления о природе этих связей

Традиционные методы анализа данных в основном ориентированы на проверку заранее сформулированных гипотез и на "грубый" разведочный анализ, в то время как одно из основных положений Data Mining - поиск неочевидных закономерностей.

3. Методы графического разведочного анализа данных. Средства Statistica для проведения графического разведочного анализа данных.

Ответ: С помощью графических методов можно находить зависимости, тренды и смещения, "скрытые" в неструктурированных наборах данных.

Средства Statistica для проведения графического разведочного анализа: категоризованные радиальные диаграммы, гистограммы (2D и 3D).

Ответ: Эти графики представляют собой наборы двумерных, трехмерных, тернарных или n-мерных графиков (таких как гистограммы, диаграммы рассеяния, линейные графики, поверхности, круговые диаграммы), по одному графику для каждой выбранной категории (подмножества) наблюдений.

5. Какую информацию о природе данных можно получить при анализе диаграмм рассеяния и категоризованных диаграмм рассеяния?

Ответ: Диаграммы рассеяния обычно используются для выявления природы взаимосвязи двух переменных (например, прибыль и фонд заработной платы), поскольку они предоставляют гораздо больше информации, чем коэффициент корреляции.

6. Какую информацию о природе данных можно получить на основе анализа гистограмм и категоризованных гистограмм?

Ответ: Гистограммы используются для изучения распределений частот значений переменных. Такое частотное распределение показывает, какие именно конкретные значения или диапазоны значений исследуемой переменной встречаются наиболее часто, насколько различаются эти значения, расположено ли большинство наблюдений около среднего значения, является распределение симметричным или асимметричным, многомодальным (т.е. имеет две или более вершины) или одномодальным и т.д. Гистограммы также используются для сравнения наблюдаемых и теоретических или ожидаемых распределений.

Категоризованные гистограммы представляют собой наборы гистограмм, соответствующих различным значениям одной или нескольких категоризующих переменных или наборам логических условий категоризации.

7. Чем принципиально отличаются категоризованные графики от матричных графиков в системе Statistica?

Ответ: Матричные графики также состоят из нескольких графиков; однако здесь каждый из них основывается (или может основываться) на одном и том же множестве наблюдений, и графики строятся для всех комбинаций переменных из одного или двух списков. Для категоризованных графиков требуется такой же выбор переменных, как и для некатегоризованных графиков соответствующего типа (например, две переменных для диаграммы рассеяния). В то же время для категоризованных графиков необходимо указать по крайней мере одну группирующую переменную (или способ разбиения наблюдений на категории), где содержалась бы информация о принадлежности каждого наблюдения к определенной подгруппе. Группирующая переменная не будет непосредственно изображена на графике (т.е. не будет построена), однако она будет служить критерием для разделения всех анализируемых наблюдений на отдельные подгруппы. Для каждой группы (категории), определяемой группирующей переменной, будет построен один график.

8. В чем достоинства и недостатки графических методов разведочного анализа данных?

Ответ: + Наглядность и простота.

- Методы дают приближенные значения.

9. Какие аналитические методы первичного разведочного анализа данных вы знаете?

Ответ: Статистические методы, нейронные сети.

10. Как проверить гипотезу о согласии распределения выборочных данных с моделью нормального распределения в системе Statistica?

Ответ: Распределение x 2 (хи-квадрат) с n степенями свободы - это распределение суммы квадратов n независимых стандартных нормальных случайных величин.

Хи-квадрат - это мера различия. Задаем уровень ошибки, равный a=0,05. Соответственно, если значение p>a , то распределение оптимально.

- для проверки гипотезы о согласии распределения выборочных данных с моделью нормального распределения с помощью критерия хи-квадрат выберите пункт меню Statistics/Distribution Fittings. Затем в диалоговом окне Fitting Contentious Distribution задайте вид теоретического распределения - Normal, выберите переменную - Variables, задайте параметры анализа - Parameters.

11. Какие основные статистические характеристики количественных переменных вы знаете? Их описание и интерпретация в терминах решаемой задачи.

Ответ: Основные статистические характеристики количественных переменных:

математическое ожидание (средний объем производства среди предприятий)

медиана

среднее квадратичное отклонение (Квадратный корень из дисперсии)

дисперсия (мера разброса данной случайной величины, т.е. её отклонения от математического ожидания)

коэффициент асимметрии (Определяем смещение относительно центра симметрии по правилу: если B1>0, то смещение влево, иначе - вправо.)

коэффициента эксцесса (близость к нормальному распределению)

минимальное выборочное значение, максимальное выборочное значение,

разброс

Частный коэффициент корреляции (измеряет степень тесноты между переменными, при условии что значения остальных переменных зафиксированы на постоянном уровне).

Качественные:

Коэффициент ранговой корреляции Спирмена (используется с целью статистического изучения связи между явлениями. Изучаемые объекты упорядочиваются в отношении некоторого признака т. е. им приписываются порядковые номера - ранги.)

Литература

1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных. - М.: "Финансы и статистика", 1983. - 471 с.

2. Боровиков В.П. Statistica. Искусство анализа данных на компьютере: Для профессионалов. 2-е изд. - СПб.: Питер, 2003. - 688 с.

3. Боровиков В.П., Боровиков И.П. Statistica - Статистический анализ и обработка данных в среде Windows. - М.: "Филин", 1997. - 608 с.

4. Электронный учебник StatSoft по анализу данных.