카테고리 없음

[파이썬으로 하는 마케팅 연구와 분석] 4장

lee___ys 2023. 3. 29. 15:31

4.1 데이터 

기본데이터를 불러온다.
1000명에대한 데이터셋을 만들고 난수를 생성한다.
음이항 분포를 생성한다.
음이항 분포는 독립시행을 가지는 이항분포와는 다르게 r번째 성공까지 걸리는 시행횟수이다. 즉 성공할때까지 하는것이다.
고개에 대한 설문조사 데이터를 만든다.

 

4.2 산점도가 있는 변수 간의 연관성 탐색 

head와 dtypes를 통해서 구조를 파악해본다.
not a number nan값이 존재한다.
산점도를 만들어보자.  plot의 종류는 scatter로 하고 x축은 age, y축은 creidt_score로 하자
help를 통해 이렇게 여러가지를 통해서 style을 구성할수가있다.
style구성하는것은 대부분의 언어가  비슷하기 때문에 알아두면좋다

ㄴㅅ

왜도(대칭성을 보여주는)가 양수인것을 고려할수있다.
산점도의 포인트 색깔을 지정할수가있다.

 

로그를 사용할것이다. 로그를 쓴다면 특별하게 큰 값, 그 값은 보기 어려운데 이 부분을 보완해준다.

하나하나 해석해보자. 221은 2x2그림에서 1번째 그림을 의미하는 것이다.

x,y축은 지정해주고 color는 none으로 edge color는 darkblue로 해주고 s는 마커의 크기인데 8로 해주자. 

이렇게 하면 산점도 해석이 완료된다 ㅎㅎ

 

pairgrid라는것을 써보자
데이터 쌍을 보여줄수있는 좋은 도구이다. 이름에도 pair가 들어가 있기 때문에 쌍을 보여줄수있는것이라고 예측할수있다.

 

공분산 covariance를 계산해보자
corr을 써서 상관관계를 파악해보자.

숫자만 나와있어서 잘 모르겠다. 시각화를 해볼까?

생각보다 알아보기 편하다. style을 사용해서 바꿔볼수도 있다.
산점도를 시각화했는데 생각보다 알아보기가 어렵다.

5장에서는 개선된 시각화를 보여줍니다.