목록Skillset/Python (19)
Yours Ever, Data Chronicles
이번 포스팅에선 데이터를 연결하는 방법(즉, 데이터 조인(join)시키는 방법)에 대해 알아본다. 데이터 분석을 하다보면 여러 개의 데이터프레임을 연결해야 하는 경우가 많다. 깔끔한 데이터(Tidy Data)를 만들기 위해 꼭 알아둬야 하는 메서드이다. 이번 장에서는 판다스의 대표적인 data join 메서드 2가지인 concat과 merge에 대해 예제로 알아보자. (참고로 데이터셋과 주피터 노트북 파일은 이 깃허브를 참고하세요!) ✔Table of Contents 먼저 임의의 데이터 df1, df2, df3를 생성하였다. 이는 내가 임의로 만든 데이터로, 1반, 2반, 3반 학생들 3명의 시험 성적 데이터이다. import pandas as pd # df1: 1반 학생들(3명)의 시험 성적 a = [..
오늘은 python에서 문자열 데이터를 처리할 때의 꿀팁 중 하나인, 열 이름을 관리하는 방법에 대해 포스팅한다. 이 방법은 하나의 열에 여러 의미가 있는 경우, 이 열의 정보를 분리하여 새로운 N개 열로 만드는 방법이다. 예를 들어, 위와 같은 데이터가 있다고 하자. 이 데이터의 'variable' 열은 2가지 의미를 갖고 있는데, '_' 를 기준으로 왼쪽은 상태를, 오른쪽은 국가를 나타내고 있다. 그래서 'Cases_Guinea'라고 하면 'Cases'와 'Guinea' 이렇게 2개로 나누어 'status', 'country' 라는 열로 만들어주고자 한다. 이는 파이썬의 문자열 처리 메서드인 split와 get을 활용하면 바로 해결된다! 바로 알아보자. import pandas as pd ebola_..
오늘은 파이썬에서 데이터프레임(dataframe)을 가공하는 유용한 메서드인 pd.melt, pd.pivot_table에 대해 알아보자. 참고로 데이터셋&주피터 노트북 코드는 이 깃허브에 공유해두었습니다 :) GitHub - suy379/python_for_DA: Python for Data Analysis (데이터 분석을 위한 중요한 파이썬 모음) Python for Data Analysis (데이터 분석을 위한 중요한 파이썬 모음). Contribute to suy379/python_for_DA development by creating an account on GitHub. github.com ✔Table of Contents 1. pd.melt pd.melt(dataframe, id_vars, v..
앞선 2개의 포스팅을 통해, 데이터의 종류(수치형 데이터, 범주형 데이터)와 변수의 개수(1개 / 2개 이상)에 따라 어떤 그래프를 그려야 하는지, 각 그래프를 통해 어떤 관계를 파악할 수 있는지 알아보았다. 그런데 EDA를 하다보면 앞에서 그린 그래프처럼 한 번에 1개의 plot만 그리는 경우는 많지 않다. 비교를 위해 1개의 plot에 여러 가지 그래프를 한꺼번에 그리는 경우가 대부분이다. 다른 분들의 EDA 결과물을 참고할 때, 밑의 그림처럼 하나의 plot에 4개의 그래프가 나와 있는 경우를 많이 봤을 것이다. 이번 포스팅에서는 위의 그림처럼 하나의 plot에 여러 가지 그래프를 넣는 방법에 대해 알아본다. 이렇게 그릴 수 있는 방법은 plt.add_subplot(), plt.subplots(),..
저번 포스팅에 이어 범주형 데이터를 시각화할 때 주로 사용되는 그래프를 정리한다. ✔Table of Contents 3. 범주형 데이터 시각화 저번 포스팅과 마찬가지로 tips 데이터셋을 사용하였다. tips.head(3) 3-1. 범주형 변수 1개 시각화 카운트플롯: sns.countplot() x: category / y: 각 category별 개수 파이 그래프: pie(x, labels) x: category별 비율 1) 카운트플롯(countplot): category별 개수 확인 주로 범주형 변수의 분포를 파악할 때 사용한다. 형태는 sns.countplot(x or y, data) 예를 들어, day 변수에 대해 어떤 값을 몇 개나 갖고 있는지를 살펴보자. sns.countplot(x = 'da..
파이썬 EDA를 하는 데 정말 중요한 주요 시각화 그래프에 대해 정리한다. 모든 그래프를 다루진 않으며, 많이 쓰이는 그래프를 중심으로만 정리하였다. 구체적으로는 데이터 종류(수치형, 범주형 데이터)에 따라, 변수 개수(1개, 2개 이상)에 따라 어떤 그래프를 그려야 할지를 정리하였다. 주피터 노트북 코드는 다음 깃허브에서 '1. [EDA guide] 주요 데이터 시각화' 파일을 공유해두었다 :) 이번 포스팅에서는 수치형 데이터(numerical data)를 시각화하는 방법을 다룬다. 참고로 시각화 라이브러리는 seaborn을 위주로 작성하였다. ✔Table of Contents 1. 데이터의 종류 먼저 데이터에는 크게 '수치형 데이터(numerical data)'와 '범주형 데이터(categorical..
안면 인식 기술로 활용되는 dlib 라이브러리. 설치하는데 너무 에러가 많이 떠서 이를 해결하기 위해 많은 삽질을 해보고 쓰는 글이다. 이대로만 따라하자! (그리고 나는 윈도우(Windows)를 사용하고 있다. 혹시 다른 운영체제를 사용 중이라면 안 맞을 수 있다) 1. dlib을 다운로드한다. http://dlib.net/ 에 들어가면 밑의 Download dlib이 있다. dlib C++ Library Dlib is a modern C++ toolkit containing machine learning algorithms and tools for creating complex software in C++ to solve real world problems. It is used in both indus..
오늘도 평화로운 코딩중, 이미지 인식 기술에 사용하는 opencv 라이브러리를 설치후, 이미지를 불러오는데 다음과 같은 에러가 떴다. AttributeError: 'Nonetype' object has no attribute 'shape' 라는.. 열심히 구글링을 해봤는데, 이 원인은 cv2.imread에 지정한 저 경로가 잘못되었기 때문이라는 것이다. 하지만 아무리 생각해도 이상했다. 왜냐하면 9장 폴더 안에 img 폴더가 있고, 거기에 있는 'img01.jpg' 라는 이미지를 불러오려고 한 건데..? 경로는 잘못되지 않았는데..? 이렇게 경로를 제대로 썼는데도 에러가 떴다면, 그 원인은 경로에 '한글'이 들어갔기 때문이다. 그래서 위의 코드처럼 경로를 수정해서, 영문으로만 구성되게 하면 에러 없이 잘..
오늘도 평화로운 코딩중, 파이썬 라이브러리가 설치되지 않아 설치를 하려고 Anaconda Prompt에 pip install ~ 을 치고 있었다. 그런데 자꾸만 이런 에러가 뜨는 것이다. ortoolpy라는 라이브러리를 설치하려고 pip install ortoolpy를 쳤는데, 에러 메세지는 바로 이것. WARNING: You are using pip version 21.0.1 : however, version 22.0.4 is available. 나의 pip version이 21.0.1인데, 22.0.4로 업그레이드해야 이 라이브러리를 설치할 수 있다는 것이다. 그리고 친절하게도(?) 밑에 You should consider upgrading via the 'C:\Users\user\anaconda3\..