{ "cells": [ { "attachments": {}, "cell_type": "markdown", "id": "b1b93787", "metadata": {}, "source": [ "# 03 - Stats Review: The Most Dangerous Equation\n", "\n", "2007년 Howard Wainer는 매우 위험한 공식에 관하여 적었습니다.\n", "\"어떤 공식들은 알고 있으면 위험하고, 어떤 공식들은 모르고 있으면 위험합니다. 첫째는 경계 내의 비밀에 끔찍한 위험이 내재되어 있기 때문입니다. 이와 같은 공식은 아인슈타인의 상징적인 $E = MC^2$인데, 평범한 물질 안에 숨겨진 거대한 에너지의 척도를 제공하기 때문입니다. 대신 저는 우리가 모를 때 위험을 방출하는 공식들에 관심을 갖고 있습니다. 이 공식들은 가까이서 보면 사물들에 대해 명확하게 이해시켜주지만, 이 공식들의 부재는 우리를 위험하게 할 정도로 무지하게 만듭니다.\" \n", "\n", "그가 말한 공식은 Moivre's equation으로 아래와 같습니다: \n", "$\n", "SE = \\frac{\\sigma}{\\sqrt{n}}\n", "$\n", "위 식에서 SE는 평균의 표준오차, $\\sigma$는 표준편차, 그리고 n은 표본 크기를 의미합니다. 용감하고 진실된 사람이 정복해야 할 수학처럼 들리지만, 한번 시작해봅시다!\n", "\n", "이 공식을 모르는 것이 왜 매우 위험한지 알아보기 위해, 교육 데이터를 살펴봅시다. 저는 ENEM 점수(SAT와 유사한 브라질 표준 고등학교 점수)를 3년 동안 다른 학교들에서 수집했습니다. 또한 저는, 우리와 관련된 정보를 유지하기 위해 데이터를 전처리했습니다. 원본 데이터는 [Inep website](http://portal.inep.gov.br/web/guest/microdados#)에서 다운로드 할 수 있습니다.\n", "\n", "가장 성적이 좋은 학교를 보면, 눈을 끄는 것이 있는데, 학생들의 수가 상당히 적습니다." ] }, { "cell_type": "code", "execution_count": 1, "id": "a9b1628f", "metadata": { "tags": [ "hide-input" ] }, "outputs": [], "source": [ "import warnings\n", "warnings.filterwarnings('ignore')\n", "\n", "import pandas as pd\n", "import numpy as np\n", "from scipy import stats\n", "import seaborn as sns\n", "from matplotlib import pyplot as plt\n", "from matplotlib import style\n", "style.use(\"fivethirtyeight\")" ] }, { "cell_type": "code", "execution_count": 2, "id": "8ed84c09", "metadata": { "tags": [ "hide-input" ] }, "outputs": [ { "data": { "text/html": [ "
\n", " | year | \n", "school_id | \n", "number_of_students | \n", "avg_score | \n", "
---|---|---|---|---|
16670 | \n", "2007 | \n", "33062633 | \n", "68 | \n", "82.97 | \n", "
16796 | \n", "2007 | \n", "33065403 | \n", "172 | \n", "82.04 | \n", "
16668 | \n", "2005 | \n", "33062633 | \n", "59 | \n", "81.89 | \n", "
16794 | \n", "2005 | \n", "33065403 | \n", "177 | \n", "81.66 | \n", "
10043 | \n", "2007 | \n", "29342880 | \n", "43 | \n", "80.32 | \n", "
18121 | \n", "2007 | \n", "33152314 | \n", "14 | \n", "79.82 | \n", "
16781 | \n", "2007 | \n", "33065250 | \n", "80 | \n", "79.67 | \n", "
3026 | \n", "2007 | \n", "22025740 | \n", "144 | \n", "79.52 | \n", "
14636 | \n", "2007 | \n", "31311723 | \n", "222 | \n", "79.41 | \n", "
17318 | \n", "2007 | \n", "33087679 | \n", "210 | \n", "79.38 | \n", "