Pandas Filtering

강의 홍보

Overview

필터링은 특정 조건식을 만족하는 행을 따로 추출하는 개념이다. 특정 행의 값에 조건식 True/False을 판별하여 값을 추출하는 방법이다. 이 때, 비교 연산자 또는 조건식 (>, <, ==, ...)을 적용하면 행을 추출할 수 있다.

Pandas sort_values()

강의 홍보

I. Overview

sort_values() 함수는 일종의 데이터의 정렬과 연관이 있다. 어려운 내용은 아니기 때문에 빠르게 소스 코드 구현 및 확인 하도록 한다.

II. Sample Tutorial

엑셀로 된 ticket_sales 데이터에서 ticket_quantity가 가장 많이 팔린 영화 Top3를 구하는 소스코드를 구해본다.

shiny tutorial 07 - flexdashboard package

공지

이번에 준비한 튜토리얼은 제 강의를 듣는 과거-현재-미래 수강생분들을 위해 준비한 자료이다. 많은 도움이 되기를 바란다

이번에 준비한 Tutorial 코로나 세계현황을 Shiny Dashboard로 만들어 가는 과정을 담았다.

I. 이전 글 소개

처음 shiny를 접하거나 shiny의 전체 튜토리얼이 궁금한 사람들을 위해 이전 글을 소개한다.

II. flexdashboard 패키지의 개요

기존의 shinydashboard와의 가장 큰 차이점은 flexdashboard의 패키지는 R Markdown1 형식을 지원한다는 것이다.

shiny tutorial 06 - shinydashboard package

공지

이번에 준비한 튜토리얼은 제 강의를 듣는 과거-현재-미래 수강생분들을 위해 준비한 자료이다. 많은 도움이 되기를 바란다

이번에 준비한 Tutorial 코로나 세계현황을 Shiny Dashboard로 만들어 가는 과정을 담았다.

I. 이전 글 소개

처음 shiny를 접하거나 shiny의 전체 튜토리얼이 궁금한 사람들을 위해 이전 글을 소개한다.

II. shinydashboard 패키지의 개요

HTML contentLayouts 조작하는 것이 편해지면 대시보드를 만들 수 있다. 그런데, 문제는 대시보드 개발을 처음부터 하는 것과 어느정도 정해진 포맷을 활용하여 작성하는 것은 다르다. 반복해서 말하지만, 데이터분석가가 처음부터 개발해서 사내 내부용 보고서를 꼭 작성해서 만들어야 하는가?하는가? 글쎄. 개인적으로 동의하기 어렵다. 핵심적인 내용의 지표만 산출 및 작성 요약하여 보고하는 것이 데이터 분석가의 기본적인 업무이자 핵심적인 업무이기 때문에, 다양한 대시보드를 빠르게 그러나 가독성있게 만드는 것이 중요하다. 어차피, 이러한 대시보드 역시, 시간이 지나면 결국엔 보는 사람만 본다.

shiny tutorial 05 - Sharing Apps

공지

이번에 준비한 튜토리얼은 제 강의를 듣는 과거-현재-미래 수강생분들을 위해 준비한 자료이다. 많은 도움이 되기를 바란다

이번에 준비한 Tutorial 코로나 세계현황을 Shiny Dashboard로 만들어 가는 과정을 담았다.

I. 이전 글 ���개

처음 shiny를 접하거나 shiny의 전체 튜토리얼이 궁금한 사람들을 위해 이전 글을 소개한다.

II. Shiny Deployment의 개요

이 영역은 웹개발자에게는 매우 쉬운 영역일 수도 있다. 그러나, 웹 환경에 익숙하지 않은 R 유저에게는 조금 버거울 수도 있다. 2-3번 정도만 반복하면 쉽게 작업하게 될 것이고, Shiny를 클라우드 서버를 통해 배포하는 방법도 익힐 수 있다.

Pandas With Excel

강의 홍보

I. Overview

이번 포스트는 기존의 엑셀 사용자를 위해 준비했다. 엑셀에 익숙한 사람들에게 파이썬을 분석 용도로 사용하고자 하는 분들에게는 작은 도움이 되기를 바란다.

II. 데이터 입출력

판다스는 다양한 형태의 외부 파일을 읽을 수 있다. CSV, MS Excel, SQL, HDF5 Format과 같은 파일 포맷을 읽을 수 있다. 파일 포맷(File Format)에 따른 데이터 입출력 도구에 관한 자료를 요약하면 다음과 같다.

shiny tutorial 04 - Layouts

공지

이번에 준비한 튜토리얼은 제 강의를 듣는 과거-현재-미래 수강생분들을 위해 준비한 자료이다. 많은 도움이 되기를 바란다

이번에 준비한 Tutorial 코로나 세계현황을 Shiny Dashboard로 만들어 가는 과정을 담았다.

I. 이전 글 소개

처음 shiny를 접하거나 shiny의 전체 튜토리얼이 궁금한 사람들을 위해 이전 글을 소개한다.

II. Layouts의 개요

이번 시간에는 Shiny Layouts 개요에 대한 간략적인 소개를 하려고 한다. 영어가 편하거나 중고급 개발자 분들은 Application layout guide를 참고하기를 바란다.

shiny tutorial 03 - HTML content

공지

이번에 준비한 튜토리얼은 제 강의를 듣는 과거-현재-미래 수강생분들을 위해 준비한 자료이다. 많은 도움이 되기를 바란다

이번에 준비한 Tutorial 코로나 세계현황을 Shiny Dashboard로 만들어 가는 과정을 담았다.

I. 이전 글 소개

처음 shiny를 접하거나 shiny의 전체 튜토리얼이 궁금한 사람들을 위해 이전 글을 소개한다.

II. HTML Content 개요

이번 시간에는 HTML Content 개요에 대한 간략적인 소개를 하려고 한다. 영어가 편하거나 중고급 개발자 분들은 Customize your UI with HTML를 참고하기를 바란다.

Pandas Lambda Apply 함수 활용

강의 홍보

I. Iterrows, Itertuples 복습

이번 포스팅은 For-loop의 대안에 관한 함수 apply에 관한 내용이다. 본 포스트를 보고 학습하시기 전에 Pandas Iterrows 함수 활용Pandas Itertuples 함수 활용에서 학습 하기를 바란다.

지난시간과 마찬가지로 데이터는 동일한 것을 쓰도록 한다.

Pandas Itertuples 함수 활용

강의 홍보

I. Iterrows

이번 포스팅은 Iterrows()의 확장개념입니다. 본 포스트를 보고 학습하시기 전에 Pandas Iterrows 함수 활용에서 학습 하기를 바란다.

II. Itertuples의 개념

itertuples()는 기본적으로 iterrows() 함수보다는 빠르다.

import pandas as pd
import io
import requests
import pprint

url = 'https://raw.githubusercontent.com/chloevan/datasets/master/sports/baseball_stats.csv'
url=requests.get(url).content
baseball_stats = pd.read_csv(io.StringIO(url.decode('utf-8')))

pprint.pprint(baseball_stats.head())
  Team League  Year   RS   RA   W   OBP   SLG    BA  Playoffs  RankSeason  \
0  ARI     NL  2012  734  688  81  0.33  0.42  0.26         0         NaN   
1  ATL     NL  2012  700  600  94  0.32  0.39  0.25         1         4.0   
2  BAL     AL  2012  712  705  93  0.31  0.42  0.25         1         5.0   
3  BOS     AL  2012  734  806  69  0.32  0.41  0.26         0         NaN   
4  CHC     NL  2012  613  759  61  0.30  0.38  0.24         0         NaN   

   RankPlayoffs    G  OOBP  OSLG  
0           NaN  162  0.32  0.41  
1           5.0  162  0.31  0.38  
2           4.0  162  0.32  0.40  
3           NaN  162  0.33  0.43  
4           NaN  162  0.34  0.42  

III. 조건부 행 추출

드디어 Python 데이터 분석가로 보스턴 레드박스(BOS)야구팀에 취직을 했다고 가정을 해보자. 단장이 2008 ~ 2010년까지의 득점과 실점의 차이를 보고 싶다고 요청을 해왔다. 이럴 때 어떻게 해야 할까?