기본데이터를 불러온다.1000명에대한 데이터셋을 만들고 난수를 생성한다.음이항 분포를 생성한다.음이항 분포는 독립시행을 가지는 이항분포와는 다르게 r번째 성공까지 걸리는 시행횟수이다. 즉 성공할때까지 하는것이다.고개에 대한 설문조사 데이터를 만든다.
4.2 산점도가 있는 변수 간의 연관성 탐색
head와 dtypes를 통해서 구조를 파악해본다.not a number nan값이 존재한다.산점도를 만들어보자. plot의 종류는 scatter로 하고 x축은 age, y축은 creidt_score로 하자help를 통해 이렇게 여러가지를 통해서 style을 구성할수가있다.style구성하는것은 대부분의 언어가 비슷하기 때문에 알아두면좋다
ㄴㅅ
왜도(대칭성을 보여주는)가 양수인것을 고려할수있다.산점도의 포인트 색깔을 지정할수가있다.
로그를 사용할것이다. 로그를 쓴다면 특별하게 큰 값, 그 값은 보기 어려운데 이 부분을 보완해준다.