Гипотетическая корреляционная зависимость. Корреляционные зависимости
Цель работы:
получение представления о корреляционной зависимости величин; освоение способа вычисления коэффициента корреляции с помощью функции KOPPEЛ.
Используемое программное обеспечение:
табличный процессор Microsoft Office Excel.
Задание 1
Требуется выполнить расчеты корреляционной зависимости успеваемости учащихся от хозяйственных расходов школы, описанные в § 38 учебника.
1. Заполнить электронную таблицу следующими данными:
2. Построить точечную диаграмму зависимости величин.
3. Выполнить статистическую функцию KOPPEЛ, указав в диалоговом окне диапазоны значений: В2:В21 и С2:С21.
4. Выписать значение коэффициента корреляции.
Задание 2
Выполнить расчеты корреляционных зависимостей успеваемости учащихся от обеспеченности учебниками и от обеспеченности компьютерами, представленными в следующей таблице.
Задание для самостоятельного выполнения по теме «Корреляционные зависимости»
Придумать таблицу парных измерений значений некоторых величин, между которыми существует гипотетическая корреляционная зависимость. Провести анализ этой зависимости на наличие линейной корреляции.
- Примерами соответствующих связанных величин могут служить:
- уровень образования (измеренный, например, в годах обучения в целом) и уровень месячного дохода;
- уровень образования и уровень занимаемой должности (для последней придумайте условную шкалу);
- количество компьютеров в школе, приходящихся на одного учащегося, и средняя оценка при тестировании па уровень владения стандартными технологиями обработки информации;
- количество часов, затрачиваемых старшеклассниками на выполнение домашних заданий, и средняя оценка;
- количество удобрений, вносимых в почву, и урожайность той или иной сельскохозяйственной культуры.
При этом вы можете идти двумя путями. Первый, более серьезный и практически полезный: вы не просто придумываете гипотетическую корреляционную зависимость, но и находите в литературе действительные данные о ней. Второй путь, более легкий: вы рассматриваете это как игру, необходимую для понимания того, что такое корреляционная зависимость, и выработки технических навыков ее анализа, и придумываете соответствующие данные, стараясь делать это наиболее правдоподобным образом.
ЕГЭ по информатике - это экзамен по выбору, который сдают абитуриенты IT-направлений. О том, как наилучшим образом подготовиться к этому экзамену, рассказал эксперт ЕГЭ, специалист по учебно-методической работе, разработчик программ подготовки к экзамену по информатике, Людмила Гонтарь.
Как сейчас обстоит дело с информатикой в общеобразовательных школах? Насколько хорошо школьники знают информатику?
В обычной школе на информатику отводится один-два часа в неделю. При этом программа обучения включает достаточно много материала, школьники изучают различные темы. В принципе, можно говорить о
том, что дети хорошо знают информатику. Ко мне на курсы приходят, в основном, ученики с хорошими и отличными оценками. Но я могу анализировать уровень знаний по отдельным темам информатики,
которые необходимы для сдачи ЕГЭ, и вот здесь не все так хорошо. Подготовиться именно к ЕГЭ на школьных уроках достаточно сложно. Информатика - это предмет по выбору, и для того чтобы получить
здесь высокий балл, нужны дополнительные знания и, соответственно, дополнительные занятия с целью наиболее глубокого изучения определенных тем. Это может быть самостоятельное изучение,
факультатив в школе, занятия с репетитором или на курсах - выбор за школьниками и их родителями.
В прошлом году из первой части ЕГЭ по информатике были исключены все тестовые задания, предполагающие выбор правильного ответа. Теперь участники экзамена должны самостоятельно вписать ответ.
Насколько это усложнило экзамен?
Это очень хорошее нововведение. Экзамен стал труднее для слабых учащихся, так как выбор ответов позволял найти правильный методом подбора. Для остальных детей экзамен не усложнился.
По вашему опыту, какие разделы информатики самые сложные для школьников и вызывают наибольшее затруднение? А какие темы самые простые?
Несколько заданий ЕГЭ можно относить к одной большой теме. Поэтому лучше говорить о том, что есть задания, в которых школьники допускают наибольшее количество ошибок. Я назову их номера:
это задания № 5, № 9, № 10, № 11, № 12, № 16, № 18 и № 23
. Первые пять - это базовые вопросы по таким темам, как «Неравномерное и равномерное кодирование», «Кодирование текста, звука,
растровых изображений», «Рекурсивные алгоритмы» и «Адресация в сети Интернет». Наиболее частые причины проблем с этими заданиями - вычислительные ошибки или механистическое усвоение темы. При
изменении вопроса школьник теряется, хотя решение задачи не меняется.
Задания № 16, № 18 и № 23 в школьном курсе почти или вовсе не рассматриваются. № 16 и № 18 - задачи повышенного уровня для детей, претендующих на высокий балл. Задание № 16 относится к теме «Системы исчисления», и ошибки здесь в основном вычислительные. В задании № 18 на преобразование логических выражений выпускники чаще всего ошибаются в технике исполнения. А вот задание № 23 технически самое сложное из всей первой части ЕГЭ, его выполняют лишь наиболее подготовленные школьники.
Кроме того, информатику не стоит сдавать детям, у которых есть проблемы с математикой. Если есть трудности с математикой, будет тяжело и на информатике. Эти два предмета очень тесно связаны.
Если говорить о самых простых темах, то это «Двоичные системы исчисления», «Таблицы истинности логических вычислений», «База данных и файловые системы», «Электронные таблицы», «Переменные, оператор присваивания» и «Вычислительные алгоритмы». Все они отражены в заданиях с № 1 по № 6, которые выполняют практически все ученики, и слабые в том числе.
За какие задания на ЕГЭ по информатике ставится наибольшее количество баллов? Как к ним лучше всего готовиться?
Чем выше номер задания, тем выше балл - так устроен ЕГЭ. Самое последнее задание - № 27 - оценивается выше остальных, а именно в 4 балла из первичных 35. За задания № 26 и № 24 можно
получить по 3 балла, за задание № 25 - 2 балла, № 23 - 1 балл. Четыре задания части 2 (№ 24-27) составляют 34 балла из 100 тестовых, то есть более трети максимальной оценки за
экзамен.
Чтобы хорошо подготовиться к этим заданиям, нужно выполнять большое количество упражнений и каждый раз делать работу над ошибками. Также здесь важно обратиться за помощью к преподавателю, поскольку, чтобы самостоятельно освоить все это, нужно гораздо больше времени.
Есть ли «формула успеха», которая поможет подготовиться к ЕГЭ по информатике наилучшим образом?
Первое правило - это труд: нужно работать, работать и еще раз работать. Второй секрет - работа над ошибками, ее необходимо выполнять в обязательном порядке. И третье - при выполнении задания
внимательно читать вопрос от начала и до конца, чтобы избежать ошибок по невнимательности. Обидно, когда школьники отвечают не на тот вопрос, который поставлен в задаче.
Какие источники вы рекомендуете использовать для самостоятельной подготовки к экзамену?
1. «Сайт ФИПИ»;
2. «Сайт К. Полякова»;
3. Сборники тестовых заданий ЕГЭ и тренировочных упражнений ФИПИ.
Какие есть «подводные камни» в заданиях части 2? На что нужно обратить внимание при подготовке к заданиям повышенной сложности?
Задание № 24
Здесь нужно уметь исполнять и понимать алгоритм, записанный на языке программирования. Поймешь - значит, выполнишь задания, указанные в номере, нет - значит, нет. В
этом задании даются два-три вопроса, и в первом из них скрыт секретик к пониманию алгоритма и к нахождению тех ошибок, которые предлагается найти, выписать и исправить. Сначала ответьте на первый
вопрос, это поможет вам понять алгоритм и найти ошибки.
Задание № 25 Для того чтобы выполнить это задание, необходимо прежде всего разобрать алгоритмы задач, предложенные в «Кодификаторе ЕГЭ по информатике» ФИПИ. В задании требуется составить алгоритм решения задачи на языке программирования, в частности, уметь работать с числами, уметь выбирать из множества чисел числа с требуемыми условиями, работать в любой системе исчисления, знать признаки делимости. Если ребята изучали «Алгоритмику» в школе, то им проще выполнить это задание. Школьники, которые приходят ко мне на занятия и не знакомы с этой темой, в первую очередь начинают последовательно изучать алгоритмы из «Кодификатора».
Задание № 26 В этом задании важно найти ответ на предложенный вопрос, сформулировать полный ответ и доказать правильность выбранного ответа.
Задание № 27 Задание творческое - и единственное, где выпускник должен самостоятельно написать программу. Обычно его успешно выполняют школьники, которые пишут программы не первый год и хорошо знают математику. Задание оценивается либо в 2 балла, либо в 4. На занятиях я с ребятами детально прорабатываю нюансы этого задания, чтобы на экзамене они получили максимум баллов.
До ЕГЭ по информатике остался один месяц. Как вы посоветуете выпускникам распределить свое время?
В оставшееся время нужно усиленно тренироваться для закрепления полученных навыков. Необходимо решать как можно больше задач и отдельно отрабатывать те задания, которые вызывают наибольшие
трудности при выполнении. Если вы готовились к ЕГЭ самостоятельно, очень важно сейчас пройти консультацию с преподавателем, потому что у каждого задания есть своя изюминка, которую нужно знать.
«На Гальтона произвела большое впечатления теория эволюции Дарвина, а в особенности мысль о том, что особи, принадлежащие к одному биологическому виду, отличаются друг от друга. Индивидуальные особенности, способствующие выживанию, подвергаются «естественному отбору» и передаются потомкам. Гальтон считал, что интеллект является особенностью, которая различается у всех людей, важна для выживания и наследуется так же, как физические характеристики, например как цвет глаз или рост. Он собрал факты, подтверждающие наследуемость интеллекта, и опубликовал две книги, посвященные этому вопросу: «Потомственные гении» (1869) и «Ученые-англичане: природа и воспитание» (1874). Последний труд популяризировал широко известные сегодня термины «природа» (nature) и «воспитание» (nurture). В своих работах Гапьтон отметил статистическую тенденцию, заключающуюся в том, что гениальность и способности, проявляющиеся в определенных областях (например, способности к химии или юриспруденции), прослеживаются в нескольких поколениях внутри семьи. Однако он недооценил влияние окружающей среды и сделал вывод, что гениальность возникает в результате передачи наследственной информации. Он аргументировал свою точку зрения, в частности, тем, что интеллект в популяции имеет нормальное распределение. Другие наследуемые особенности (например, рост) также имеют нормальное распределение, и поэтому Гальтон принял этот статистический факт за показатель влияния наследственности.
Только в 1888 г. ученому удалось показать высокую частоту появления таких черт, как гениальность в семьях: свои представления он сформулировал в работе, названной «Корреляция и ее измерение». Во-первых, Гальтон обнаружил, что данные можно особым образом организовать по рядам и столбцам и получил прототип сегодняшнего «графика рассеяния». Во-вторых, Гальтон заметил, что когда «корреляция» была неполной, начинала проявляться одна закономерность. У родителей с ростом выше среднего были высокие дети, но довольно часто они были не такими высокими, как мать и отец. У родителей с ростом ниже среднего дети были низкие, но не настолько. Это означает, что рост у детей имеет тенденцию смещаться, или регрессировать , в сторону среднего арифметического значения в популяции.
Феномен «регрессии к среднему», который представляет угрозу внутренней валидности исследования, является одним из самых выдающихся открытий Гальтона.
Третье наблюдение Гальтона состояло в том, что график, построенный по значениям среднего арифметического для каждого столбца таблицы рассеяния, дает более или менее прямую линию. По сути, он представляет собой разновидность «линии регрессии». Таким образом, Гальтон открыл основные характеристики корреляционного анализа.
Прочитав о работе Гальтона, Карл Пирсон продолжил изыскания в этой области и разработал формулу для вычисления коэффициента корреляции. Он обозначил коэффициент буквой «r», что значит «регрессия», в честь сделанного Гальтоном открытия регрессии к среднему. Вслед за Гальтоном Пирсон считал, что корреляционный анализ подтверждает идею о наследуемости многих свойств, обнаруживающих себя в отдельных семьях». (Цит. по Гудвин Д., Исследование в психологии. Питер, 2004, с.312-313).
Считается, что переменные коррелируют, если между ними существует какая-либо взаимосвязь. Это подразумевает сам термин «корреляция» – взаимная связь, отношение. В случае прямой или положительной корреляции взаимосвязь такова, что высокие значения одной переменной связаны с высокими значения другой, а низкие значения первой с низкими значениями второй. Отрицательная корреляция означает обратную взаимосвязь. Высокие значения одной переменной связаны с низкими значениями другой, и наоборот.
Взаимосвязь между временем, посвященным занятиям, и оценками является примером положительной корреляции. Примером отрицательной корреляции может быть взаимосвязь между бесполезно потраченным временем и средним баллом. Бесполезно потраченное время можно операционально определить как количество часов в неделю, потраченное на определенные занятия, например на видеоигры или просмотр телесериалов.
Силу корреляции показывает особая величина описательной статистики – «коэффициент корреляции». Коэффициент корреляции равен -1,00 в случае прямой отрицательной корреляции, 0,00 при отсутствии взаимосвязи и +1,00 при полной положительной корреляции. Наиболее распространенным коэффициентом корреляции является г Пирсона. Пирсоново г вычисляется для данных, полученных с помощью интервальной шкалы или шкалы отношений . В случае других шкал измерений рассматриваются другие виды корреляции. К примеру, для порядковых данных (т. е. упорядоченных) вычисляется ρ (ро) Спирмена (иначе эту статистику обозначают как r s).
Так же как среднее арифметическое и стандартное отклонение, коэффициент корреляции является величиной описательной статистики. В ходе заключительного анализа определяется, является ли конкретная корреляция значимо большей (или меньшей) нуля. Таким образом, для корреляционных исследований нулевая гипотеза (Н 0) говорит, что действительное значение г = 0 (т. е. нет никаких взаимосвязей), а альтернативная гипотеза (Н 1) - что г ≠ 0. Отвергнуть нулевую гипотезу – значит решить, что между двумя переменными существует значимая взаимосвязь.
График рассеяния
Силу корреляции можно обнаружить, рассмотрев график рассеяния. Он является графическим отображением взаимосвязи, на которую указывает корреляция. В случае полной положительной или полной отрицательной корреляции точки образуют прямую линию, а нулевая корреляция дает график рассеяния типа (а), точки которого распределены случайным образом. По сравнению с умеренной корреляцией (г и д) точки сильной расположены ближе друг к другу (б и в). В целом, по мере ослабления корреляции точки на графике рассеяния все больше удаляются от диагонали, связывающей точки при полной корреляции, равной +1,00 или -1,00.
a) r = 0 б) r = -0.9 в) r = +0.9
г) r = - 0.56 д) r = +0.61
Рассмотренные выше графики рассеяния (кроме а) апроксмировались прямыми линиями, то есть отражали линейные зависимости. Однако не все взаимосвязи линейны, а вычисление r Пирсона для нелинейного случая не поможет выявить природу такой взаимосвязи. На следующем рисунке показан гипотетический пример связи между возбуждением и выполнением задания, илюстрирующий закон Йеркса-Додсона: сложные задания выполняются хорошо при среднем уровне возбуждения, но плохо при очень низком и очень высоком. Из графика рассеяния видно, что точки ложатся вдоль определенной кривой, но при попытке применить линейную корреляцию мы получим r, близкий к нулю.
При проведении корреляционного исследования важно учитывать людей, оценки которых попадают в широкий диапазон. Ограничение диапазона одной или обеих переменных снижает корреляцию . Предположим, мы изучаем взаимосвязь между средним баллом школьного аттестата и успеваемостью в ВУЗе (оценивается по средним баллам, полученным первокурсниками в конце года). На рис. а) показано, каким может быть график рассеяния при исследовании 25 студентов. Коэффициент корреляции равен +0,87. Но если изучить эту взаимосвязь на примере студентов, получивших средний бал в школе 4,5 и выше, то корреляция изменится, она падает до +0,27.
а) r = 0.87 б) r = 0,27
Коэффициент детерминации – г 2
Важно иметь в виду, что довольно легко неверно понять смысл конкретного значения пирсонова г. Если оно равняется +0,70, то взаимосвязь действительно является относительно сильной, но не надо думать, что +0,70 каким-то образом связано с 70%, и в таком случае взаимосвязь установлена на 70%. Это неверно. Для интерпретации значения корреляции следует использовать коэффициент детерминации (г 2). Он находится возведением в квадрат г, а поэтому его значение никогда не бывает отрицательным. Данный коэффициент формально определяется как степень изменчивости одной переменной корреляции, вызванная изменчивостью другой переменной . Поясним это на конкретном примере.
Проводится исследование, в ходе которого у 100 участников измеряется уровень эмоциональной депрессии и средний балл. Мы проверяем взаимосвязь между двумя переменными и обнаруживаем отрицательную корреляцию: чем выше уровень депрессии, тем ниже средний балл, и наоборот, чем слабее депрессия тем выше средний балл. Рассмотрим два значения корреляции, которые могут быть получены в результате этого исследования, – -1,00 и -0,50. Коэффициент детерминации будет равен 1,00 и 0,25 соответственно. Чтобы понять смысл этих значений, для начала обратим внимание на то, что средний балл у 100 изучаемых людей, скорее всего, будет варьироваться от 3,0 до 5,0. Как исследователи, мы хотим выяснить причину такой изменчивости – почему один человек получает 3,2 балла, а другой 4,4 и т. д. Другими словами, мы хотим узнать,что вызывает индивидуальные различия в средних баллах ? В действительности,причиной этому может быть несколько факторов : учебные привычки, общий уровень интеллекта, эмоциональная устойчивость, склонность к выбору легких предметов для изучения и т. д. Как показывают оценки теста на депрессию,в нашем гипотетическом исследовании изучается один из этих факторов - эмоциональная устойчивость,г 2 показывает, насколько изменчивость средних баллов может быть связана непосредственно с депрессией. В первом случае, когда г = -1,00, а г 2 = 1,00, мы можем прийти к выводу, что 100% изменчивости средних баллов связана с изменчивостью оценок депрессии. Следовательно, можно сказать, что 100% различий между средними баллами (3,2 и 4,4 и др.) вызваны депрессией. В реальном исследовании такой результат, конечно, невозможно получить. Во втором случае, когда г = -0,5, а г 2 = 0,25, только одна четверть (25%) изменчивости средних баллов будет связана с депрессией. Остальные 75% связаны с другими факторами, подобными перечисленным выше. Говоря кратко, коэффициент детерминации лучше характеризует силу отношений, чем г Пирсона.
Регрессионный анализ: построение предположений
Важнейшей особенностью корреляционных исследований является возможность при наличии сильной корреляции строить предположения о будущем поведении . Корреляция между двумя переменными дает возможность на основании значений одной из них предсказать значения другой. Это несложно показать на примере со средними баллами. Если мы знаем, что время, посвященное учебе, и средний балл коррелируют, и что некто занимается 45 часов в неделю, мы сможем безошибочно предсказать относительно высокий средний балл для такого студента. Аналогично высокий средний балл позволит вам предсказать время, уделяемое учебе. Построение предположений на основании корреляционных исследований называется регрессионным анализом.
На рис. представлен график рассеяния для: а) времени, посвященного учебе и среднего балла и б) бесполезно потраченного времени и среднего балла. На каждом графике отображена и линия регрессии, которая используется для построения предположений. Линию регрессии также называют «оптимальной линией»: она представляет собой наилучший из возможных способов обобщения точек графика рассеяния . Это значит, что абсолютные значения расстояний по вертикали между каждой точкой графика и линией регрессии минимальны.
Линия регрессии рассчитывается по формуле Y = a + b X, где а – это точка, в которой прямая пересекает ось У (т. е. отрезок, отсекаемый на оси У), a b – это угол наклона прямой, или ее относительная крутизна. X – это известная величина, а У– величина, которую мы пытаемся предсказать.Зная 1) силу корреляции и 2) стандартное отклонение для коррелирующих переменных, можно вычислить величинуb , зная 1) значениеb и 2) средние значения коррелирующих переменных, можно найтиа .
В регрессионном анализе для предсказания значения Y (например, среднего балла) на основании значения X (например, времени, посвященного учебе) используется уравнение регрессии. Y иногда называют критериальной переменной, а X - предик -торной переменной. Однако для построения точных предположений корреляция должна быть значительно выше нуля . Чем выше корреляция, тем ближе будут точки графика рассеяния к линии регрессии и тем больше будет уверенность в том, что ваши предположения верны. Таким образом, отмеченная ранее проблема ограничения диапазона, которая снижает корреляцию, также снижает достоверность предсказаний.
График, отражающий уравнение регрессии, показывает, как строить предположения с помощью линии регрессии.
Например, какой средний балл стоит ожидать у студента, который проводит за учебой по 34 часов в неделю. Чтобы получить ответ, проведем перпендикуляры от оси X к линии регрессии, а затем от точки пересечения к оси Y. Значение точки на оси Y и будет предполагаемым значением (помним, что правильность предположения зависит от силы корреляции). Таким образом, по времени учебы, равному 40 часам, можно предсказать средний балл, равный 3,4, а по бесполезно потраченному 41 часу - средний балл чуть выше 2,3. С помощью формулы регрессии можно вычислить более точные значения и сделать более точные предсказания.
Следует знать, что регрессионный анализ применяется в большинстве исследований, о которых мы узнаем из средств массовой информации.
К примеру, нам может встретиться отчет об исследовании «факторов риска для инфаркта», в котором на основании значимой корреляции между курением и сердечными заболеваниями сделан вывод, что у людей, злоупотребляющих курением, больше вероятность развития сердечно-сосудистых заболеваний, чем у некурящих. Это значит, что курение является основанием для предсказания развития болезней сердца. На основании другого исследования, посвященного изучению «портрета жестокого супруга (супруги)», может быть сделан вывод о том, что вероятность появления подобного поведения увеличивается, если виновник – безработный. Это следует из наличия корреляции между безработицей и склонностью к оскорбительному поведению. На основании наличия корреляции с помощью регрессионного анализа, зная первое, можно сделать предположение насчет второго.
Тема: Практическая работа №17
« Расчет корреляционных зависимостей в Microsoft Excel»
Тип урока: практическая работа
Цели:
Получение представления о корреляционной зависимости величин;
Освоение способа вычисления коэффициента корреляции с помощью функции КОРРЕЛ;
Формирование навыка по работе в MS Excel;
Развитие системного мышления, позволяющего выделять в окружающей действительности системы, элементы систем, адекватные поставленной задаче;
Формирование профессиональных навыков работы.
Оборудование:
Интерактивная доска;
Ход урока:
I. Организационный момент (5 мин.)
Приветствие. Сообщение темы.
II. Актуализация знаний (5 мин.)
Проверка домашнего задания.
III. Практическая работа (30 мин.)
Практическая работа №17
Задание 1
Требуется выполнить расчеты корреляционной зависимости успевае-мости учащихся от хозяйственных расходов школы, описанные в § 38 учебника.
1. Заполнить электронную таблицу следующими данными:
А | В | С |
№ п/п | Затраты (руб./чел.) | Успеваемость (средний балл) |
3,81 |
||
345 | 4,13 |
|
4,30 |
||
100 | 3,96 |
|
203 | 3,87 |
|
420 | 4,33 |
|
210 | ||
137 | 4,21 |
|
463 | 4,4 |
|
231 | 3,99 |
|
134 | 3,9 |
|
100 | 4,07 |
|
294 | 4,15 |
|
396 | 4,1 |
|
3,76 |
||
480 | 4,25 |
|
450 | 3,88 |
|
496 | 4,50 |
|
102 | 4,12 |
|
150 | 4,32 |
2. Построить точечную диаграмму зависимости величин (ее вид показан в учебнике на рис. 6.7).
3. Выполнить статистическую функцию КОРРЕЛ, указав в диалоговом окне диапазоны значений: В2:В21 и С2:С21.
4. Выписать значение коэффициента корреляции.
Задание 2
Выполнить расчеты корреляционных зависимостей успеваемости уча-щихся от обеспеченности учебниками и от обеспеченности компьютера-ми, представленными в следующей таблице.
Обеспечение учебного процесса | |||||
Номер школы | Обеспеченность учебниками (%) | Успеваемость (средний балл) | Обеспеченность компьютерами (%) | Успеваемость (средний балл) |
|
3,81 | 3,98 |
||||
4,15 | 4,01 |
||||
4,69 | 4,34 |
||||
4,37 | 4,41 |
||||
4,53 | 3,94 |
||||
4,23 | 3,62 |
||||
100 | 4,73 | 4,6 |
|||
3,69 | 4,24 |
||||
4,08 | 4,36 |
||||
4,2 | 3,99 |
||||
4,32 | 4,5 |
Полученные значения коэффициентов корреляции сопоставить с приведенными в § 38 учебника.
Задание для самостоятельного выполнения по теме
«Корреляционные зависимости»
Придумать таблицу парных измерений значений некоторых величин, между которыми существует гипотетическая корреляционная зависимость. Провести анализ этой зависимости на наличие линейной корреляции.
Примерами соответствующих связанных величин могут служить:
уровень образования (измеренный, например, в годах обучения в целом) и уровень месячного дохода;
уровень образования и уровень занимаемой должности (для последней придумайте условную шкалу);
количество компьютеров в школе, приходящихся на одного учащегося, и средняя оценка при тестировании на уровень владения стандартными технологиями обработки информации;
количество часов, затрачиваемых старшеклассниками на выполнение домашних заданий, и средняя оценка;
количество удобрений, вносимых в почву, и урожайность той или иной сельскохозяйственной культуры.
При этом вы можете идти двумя путями. Первый, более серьезный и практически полезный: вы не просто придумываете гипотетическую корреляционную зависимость, но и находите в литературе действительные данные о ней. Второй путь, более легкий: вы рассматриваете это как игру, необходимую для понимания того, что такое корреляционная зависимость, и выработки технических навыков ее анализа, и придумываете соответствующие данные, стараясь делать это наиболее правдоподобным образом.
IV . Итог урока (2 мин.) Объявляются оценки.
V . Домашнее задание (3 мин.) Повторить § 38
Корреляционные зависимости
Регрессионные математические модели строятся в тех случаях, когда известно, что зависимость между двумя факторами существует и требуется получить ее математическое описание. А сейчас мы рассмотрим задачи другого рода. Пусть важной характеристикой некоторой сложной системы является фактор А. На него могут оказывать влияние одновременно многие другие факторы: В, С, D и так далее.
Мы рассмотрим два типа задач – требуется определить:
1. оказывает ли фактор В какое-либо заметное регулярное влияние на фактор А;
В качестве примера сложной системы будем рассматривать школу. Пусть для первого типа задач фактором А является средняя успеваемость учащихся школы, фактором В – финансовые расходы школы на хозяйственные нужды: ремонт здания , обновление мебели, эстетическое оформление помещения и т. п. Здесь влияние фактора В на фактор А не очевидно. Наверное, гораздо сильнее на успеваемость влияют другие причины: уровень квалификации учителей, контингент учащихся, уровень технических средств обучения и другие.
Специалисты по статистике знают, что, для того чтобы выявить зависимость от какого-то определенного фактора, нужно максимально исключить влияние других факторов. Проще говоря, собирая информацию из разных школ, нужно выбирать такие школы, в которых приблизительно одинаковый контингент учеников, квалификация учителей и пр., но хозяйственные расходы школ разные (у одних школ могут быть богатые спонсоры, у других - нет).
Итак, пусть хозяйственные расходы школы выражаются количеством рублей, отнесенных к числу учеников в школе (руб/чел.), потраченных за определенный период времени (например, за последние 5 лет). Успеваемость же пусть оценивается средним баллом учеников школы по результатам окончания последнего учебного года. Еще раз обращаем ваше внимание на то, что в статистических расчетах обычно используются относительные и усредненные величины.
Итоги сбора данных по 20 школам, введенные в электронную таблицу, представлены на рис. 1. На рис. 2 приведена точечная диаграмма, построенная по этим данным.
Рис. 1 Статистические данные | Рис. 2 Точечная диаграмма |
Значения обеих величин: финансовых затрат и успеваемости учеников имеют значительный разброс и, на первый взгляд, взаимосвязи между ними не видно. Однако она вполне может существовать.
Зависимости между величинами, каждая из которых подвергается не контролируемому полностью разбросу, называются корреляционными зависимостями.
Раздел математической статистики, который исследует такие зависимости, называется корреляционным анализом. Корреляционный анализ изучает усредненный закон поведения каждой из величин в зависимости от значений другой величины, а также меру такой зависимости.
Оценку корреляции величин начинают с высказывания гипотезы о возможном характере зависимости между их значениями. Чаще всего допускают наличие линейной зависимости. В таком случае мерой корреляционной зависимости является величина, которая называется коэффициентом корреляции. Как и прежде, мы не будем писать формулы, по которым он вычисляется; их написать нетрудно, гораздо труднее понять, почему они именно такие. На данном этапе вам достаточно знать следующее:
· коэффициент корреляции (обычно обозначаемый греческой буквой ρ) есть число, заключенное в диапазоне от -1 до +1;
· если это число по модулю близко к 1, то имеет место сильная корреляция, если к 0, то слабая;
· близость ρ к +1 означает, что возрастанию одного набора значений соответствует возрастание другого набора, близость к -1 означает обратное;
· значение ρ легко найти с помощью Excel (встроенные статистические функции).
В Excel функция вычисления коэффициента корреляции называется КОРРЕЛ и входит в группу статистических функций. Покажем, как ей воспользоваться. На том же листе Excel, где находится таблица, представленная на рис. 1, надо установить курсор на любую свободную ячейку и запустить функцию КОРРЕЛ. Она запросит два диапазона значений. Укажем Затраты и Успеваемость. После их ввода выведется ответ: ρ = 0,. Эта величина говорит о среднем уровне корреляции.
Наличие зависимости между хозяйственными затратами школы и успеваемостью нетрудно понять. Ученики с удовольствием ходят в чистую, красивую, уютную школу, чувствуют там себя как дома и поэтому лучше учатся.
В следующем примере проводится исследование по определению зависимости успеваемости учащихся старших классов от двух факторов: обеспеченности школьной библиотеки учебниками и обеспеченности школы компьютерами. И та и другая характеристика количественно выражаются в процентах от нормы. Нормой обеспеченности учебниками является их полный комплект, то есть такое количество, когда каждому ученику выдаются из библиотеки все нужные ему для учебы книги. Нормой обеспеченности компьютерами будем считать такое их количество, при котором на каждые четыре старшеклассника в школе приходится один компьютер. Предполагается, что компьютерами ученики пользуются не только на информатике, но и на других уроках, а также во внеурочное время.
В таблице, изображенной на рис. 3, приведены результаты измерения обоих факторов в 11 разных школах. Напомним, что влияние каждого фактора исследуется независимо от других (то есть влияние других существенных факторов должно быть приблизительно одинаковым).
Для обеих зависимостей получены коэффициенты линейной корреляции. Как видно из таблицы, корреляция между обеспеченностью учебниками и успеваемостью сильнее, чем корреляция между компьютерным обеспечением и успеваемостью (хотя и тот и другой коэффициенты корреляции не очень большие). Отсюда можно сделать вывод, что пока еще книга остается более значительным источником знаний, чем компьютер.
Коротко о главном
Зависимости между величинами, каждая из которых подвергается не контролируемому полностью разбросу, называются корреляционными.
С помощью корреляционного анализа можно решить следующие задачи: определить, оказывает ли один фактор существенное влияние на другой фактор; из нескольких факторов выбрать наиболее существенный.
Количественной мерой корреляции двух величин является коэффициент корреляции.
Значение коэффициента корреляции лежит между -1 и +1. Чем ближе его значение по модулю к 1, тем корреляция (связь) сильнее.
В MS Excel для определения коэффициента корреляции используется функция КОРРЕЛ из группы статистических функций.
Вопросы и задания
1. Что такое корреляционная зависимость?
2. Что такое корреляционный анализ?
3. Какие типы задач можно решать с помощью корреляционного анализа?
4. Какая величина является количественной мерой корреляции? Какие значения она может принимать?
5. С помощью какого средства табличного процессора можно вычислить коэффициент корреляции?
6. Для данных из таблицы, представленной на рис. 3, постройте две линейные регрессионные модели.
7. Для этих же данных вычислите коэффициент корреляции. Сравните с приведенными на рис. 3 результатами.
Компьютерный практикум «Расчет корреляционных зависимостей в MS Excel»
Цели работы: получение представления о корреляционной зависимости величин; освоение способа вычисления коэффициента корреляции с помощью функции КОРРЕЛ.
Используемые программные средства: табличный процессор MS Excel.
Задание 1. В приведенной ниже таблице содержатся данные о парных измерениях двух величин, произведенных в некоторой школе: температуры воздуха в классе х и доли простуженных учащихся у:
Зависимость носит статистический характер, поскольку нельзя достоверно сказать, например, что при температуре 15°С в школе болеет 5% учащихся, а при температуре 20°С - 2%. Кроме температуры, есть и другие факторы, влияющие на простудные заболевания, различные для разных школ, и все их проконтролировать невозможно.
Выполнить следующее:
Þ построить с помощью точечную диаграмму, визуально отображающую табличную зависимость;
Þ ответить на вопрос, можно ли на основании этой точечной диаграммы выдвинуть гипотезу о наличии линейной корреляции между величинами;
Þ если ответ очевидно отрицательный, то исправить таблицу так, чтобы гипотеза о наличии линейной корреляции стала более правдоподобна;
Þ используя функцию КОРРЕЛ, найти коэффициент корреляции и подтвердить или опровергнуть указанную гипотезу.
Задание 2. Придумайте сами таблицу парных измерений значений некоторых величин, между которыми существует гипотетическая корреляционная зависимость. Произведите анализ этой зависимости на наличие линейной корреляции.
Примерами соответствующих связанных величин могут служить:
ü уровень образования (измеренный, например, в годах обучения в целом) и уровень месячного дохода;
ü уровень образования и уровень занимаемой должности (для последней придумайте условную шкалу);
ü количество компьютеров в школе, приходящихся на одного учащегося, и средняя оценка при тестировании на уровень владения стандартными технологиями обработки информации ;
ü число часов, затрачиваемых старшеклассником на выполнение домашних заданий, и средняя оценка;
ü количество удобрений, вносимых в почву, и урожайность той или иной сельскохозяйственной культуры.
При этом вы можете идти двумя путями. Первый, более серьезный и практически полезный - вы не просто придумываете гипотетическую корреляционную зависимость, но и находите в литературе действительные данные о ней. Второй путь, более легкий - вы рассматриваете это задание как игру, необходимую для понимания того, что такое корреляционная зависимость, и выработки технических навыков ее анализа, и придумываете соответствующие данные, стараясь делать это наиболее правдоподобным образом.