소장정보
위치 | 등록번호 | 청구기호 / 출력 | 상태 | 반납예정일 |
---|---|---|---|---|
이용 가능 (1) | ||||
1자료실 | 00016767 | 대출가능 | - |
- 등록번호
- 00016767
- 상태/반납예정일
- 대출가능
- -
- 위치/청구기호(출력)
- 1자료실
책 소개
전통적으로 데이터를 다루는 사람은 많습니다. DBA, 사회과학자, 통계학자 등 모두 형태는 달라도 '데이터'를 다루는 사람들입니다. 이들에게 변화가 요구되고 있습니다. 이유는 데이터의 형태가 다양해지고 커졌기 때문입니다.
IT기술자(개발자)는 이런 데이터를 정리만 할 뿐 분석할 수 없고 통계학자는 다뤄보지 못한 데이터의 형태와 엄청나게 큰 데이터를 핸들링하기 힘들어 합니다. 이제는 통계와 IT기술을 함께 배워야 할 때가 되었습니다.
이 책은 R입문서로서 통계와 IT기술을 함께 배울 수 있도록 준비되었습니다.
통계로 개념을 이해하고 R로 실력을 다지고 다양한 예제로 개념을 붙들 수 있도록 구성했습니다.
어떤 책은 통계를 빼고 R을 설명하는 책도 있고 어떤 책은 저 뒷편에 부록처럼 대충 끼워 넣은 책도 있습니다. 하지만 R은 통계를 위한 언어입니다. 통계를 빼고 R을 논하는 것은 마치 멋진 파티에 초대 받아 가서는 파티장 앞에 있는 편의점에서 라면만 먹고 오는 것과 같습니다.
여러분을 통계와 R의 세계로 초대하고 싶습니다. 와서 멋진 세계를 경험하길 바랍니다.
서버개발자, UI개발자, 데이터베이스 설계자, 통계학자, 사회과학자, 게임 개발자, 의학 종사자 등 데이터를 다루는 모든 사람에게 통계와 R이 필요합니다. 데이터를 바로 이해하고 데이터를 정면으로 마주하길 바랍니다. 그렇게 했을 때 통계는 수많은 데이터의 잡음 속에서 무엇을 선택할지 알려줄 것입니다.
목차
Hello 통계! - 왜 통계를 배워야 하지? 6
Hello R! - 왜 하필 R이야? 7
R의 특징1 - 인터프리터 언어입니다. 8
R의 특징2 - 무료이고 오픈소스입니다. 10
R의 특징3 - 패키지를 통한 무한확장 12
R의 특징4 - 함수 중심의 언어 14
챕터0 - 완벽한 설치
0-1 R과 RStudio 설치 및 환경설정 26
0-1-1 R 설치 26
0-1-2 'RStudio' 설치 32
0-1-3 Java설치 35
0-1-4 작업 폴더 설정하기 38
0-1-5 pptx파일처럼 다루는 RData파일 39
0-1-6 늘 관리자모드로 실행하기 40
0-1-7 예제 파일 다운 및 준비 42
챕터1 - 기초가 어때서
1-1 함수와 객체 - 어렵지 않아요. 따라해 보세요. 46
1-1-1 함수 사용 방법 46
1-1-2 객체 사용 방법 51
1-1-3 객체에 또 다른 객체를 넣기 53
1-1-4 객체에 함수 넣기 54
1-1-5 벡터에 대해 더 자세히 살펴보기 55
1-1-6 R은 데이터 입력도구가 아니다 56
1-1-7 벡터를 추가, 삭제, 수정하기 56
1-1-8 객체 이름 정하기 58
1-1-9 객체 사용 몇 가지 팁 60
1-3 패키지(Package) - 기능 확장을 선물받음 60
1-3-1 패키지 설치방법 60
1-3-2 설치된 패키지를 사용하기 61
1-3-3 예제 실행해보기 61
1-3-4 이 책의 예제를 사용하기 위한 필수 설치 패키지 62
1-3-5 설치된 패키지 목록보기 63
1-4 궁금한 것이 있는데 어떡하지? 63
1-4-1 검색 방법 추천 63
1-4-2 Reference 문서를 참고합시다 64
1-4-3 R에서 도움말 직접 보기 65
1-4-4 help()함수로 도움말이 안나오는데요 66
1-4-5 내가 받은 패키지가 어떤 녀석인지 알자 66
1-4-6 필요한 패키지를 찾고 싶을 때 67
1-5 R에서 외부데이터 읽어들이는 다양한 방법 67
1-5-1 csv 포맷 읽어들이기 67
1-5-2 txt 포맷을 다양한 방법으로 읽어들이기 69
1-5-3 Excel파일 읽어들이기 72
1-5-4 SPSS 파일인 sav 포맷 읽어들이기 73
1-5-5 XML 포맷 읽어들이기 74
1-5-6 웹에 있는 HTML 형식의 테이블을 읽어들이기 76
1-5-7 Ctrl+C, Ctrl+V로 데이터 가져오기 78
1-6 맥 사용자를 위한 가이드 - 맥 사용자만 보세요. 78
1-7 알아두면 유용한 몇 가지 팁 80
1-7-1 Github로 패키지 설치하기 80
1-7-2 패키지 파일을 다운받아 직접 설치하기 81
1-7-3 자주쓰는 명령어 계속 쓰기 귀찮아 83
챕터2 - 데이터 개념 이해하기
통계로 개념 이해하기 88
2-1 표로 데이터 정리하기 88
2-1-1 데이터는 통계를 다루는 사람에게 식재료와 같다. 88
2-1-2 데이터의 종류 92
2-1-3 데이터 손질하기 94
2-1-3-1 명목형 변수 '도수분포표' 만들기 94
2-1-3-2. 명목형 변수 '상대도수분포표' 만들기 95
2-1-3-3 연속형 변수 '도수분포표' 만들기 96
2-1-3-4 분할표(Contingency Table) 만들기 98
R로 실력 다지기 101
2-2 데이터프레임 다루기 101
2-2-1 벡터 - R의 최소 데이터 단위 101
예제1 - 여러 종류 벡터 만들기 104
2-2-2 데이터프레임(dataframe) 108
예제2 - 여러 개 벡터를 만들어 데이터프레임을 만들기 108
예제3 - 외부 데이터 가져오기와 변수 선택하기 110
예제4 - 여러 개 변수 선택하기 114
예제5 - 쉽게 변수 선택하기 117
예제6 - 조건으로 변수 선택하기 123
예제7 - 변수명 바꾸기 126
예제8 - 새로운 변수 옆에 붙이기 127
예제9 - 더 복잡한 새로운 변수 붙이기 128
예제10 - 행으로 추가하기 131
2-2-3 리스트 - 자유로운 영혼 132
예제11 - 모든 종류의 데이터 객체를 리스트 객체에 담기 133
예제12 - 리스트 모든 항목에 동일한 함수 적용하기 138
2-2-4 그 외 다른 데이터 객체 140
2-2-5 '도수분포표' 만들기 141
예제13 - 명목형 변수로 '도수분포표' 만들기 141
예제14 - R에서 연속형 변수를 '도수분포표'로 만들기 143
예제15 - 분할표 만들기 146
더 알아보기 - 결측치 다루는 여러가지 방법 149
더 알아보기 - Rmarkdown으로 쉽게 코딩하기 152
실전예제1 - 20만건 관측치(Observation)가 넘는 데이터셋의 명목형 변수 '도수분포표' 만들기 160
실전예제2 - 대장암 환자 자료 분석 166
실전예제3 - 전국 커피숍 폐업/영업 상황 살펴보기 170
실전예제4 - 전국 커피숍 규모 파악하기 182
실전예제5 - 전국 인구조사 자료 정리하기(전처리 연습) 188
챕터3 - 기술통계
통계로 개념 이해하기 201
3-1 수치로 데이터 특성 나타내기 201
3-1-1 평균(mean) 201
3-1-2 아웃라이어(outlier) 203
3-1-3 중앙값 204
3-1-4 범위 205
3-1-5 사분위범위(Interquartile Range) 205
3-1-6 산포도 - 넌 얼마나 퍼져있니? 207
3-1-6-1 분산과 표준편차 207
3-1-6-2 표준화 - 기준이 다른 데이터를 비교 210
3-1-6-3 변동계수 213
3-1-6-4 공분산 214
R로 실력 다지기 219
3-2 기술통계 값 구하기 219
3-2-1 평균구하기 219
3-2-2 중앙값 구하기 219
3-2-3 범위 구하기 219
3-2-4 사분위 구하기 220
3-2-5 IQR 구하기 220
3-2-6 평균, 중앙값, Q1, Q3 한 번에 보기 220
3-2-7 Box Plot 도형으로 변수 특성 보기 221
3-2-8 상관계수 다루기 221
3-2-9 여러 변수를 다루는 함수에서 결측치 다루기 222
3-2-10 분산과 공분산 구하기 225
3-2-11 표준편차 구하기 226
3-2-12 표준화 하기 226
3-2-13 변동계수 구하기 227
실전예제6 - 전국 연령별 평균 월급 조사 232
실전예제7 - 그룹별 평균구하기 238
실전예제8 - IQR 구하기 246
실전예제9 - 아웃라이어 찾기와 제거하기 250
실전예제10 - 평균값 표준화하여 그래프를 그려 한눈에 보기 256
챕터4 - 시각화
통계로 개념 이해하기 262
4-1 여러 그래프로 데이터 나타내기 262
4-1-1 값을 나타내는 그래프 264
4-1-1-1 막대 그래프 264
4-1-1-2 히스토그램 268
4-1-1-3 상자 그래프(Box Plot) 272
4-1-2 변수 관계를 나타내는 그래프 273
R로 실력 다지기
4-2 plot과 ggplot2로 그래프 그리기
4-2-1 빠른 탐색적 자료 분석을 위한 그래프 그리기 277
4-2-1-1 고수준 그래픽 함수 시작하기 - plot() 278
4-2-1-2 저수준 그래픽 함수 - 제목 달기 285
4-2-1-3 다른 고수준 그래프 알아보기 - barplot() 287
4-2-1-4 다른 고수준 그래프 알아보기 - boxplot() 290
4-2-1-5 다른 고수준 그래프 알아보기 - hist() 291
4-2-1-6 응용 - 기본 그래프 함수 활용하기 294
4-2-2 정교한 시각화로 분석하기(ggplot2) 297
4-2-2-1 ggplot2패키지로 그래프 그리는 방법 297
4-2-2-2 ggplot() 함수에 대해 알아보기 300
4-2-2-3 geom() 함수에 대해 알아보기 300
4-2-2-4 바그래프 그리기(geom_ban()) 304
4-2-2-5 히스토그램 그리기(geom_histogram()) 307
4-2-2-6 산점도 그리기(geom_point()) 312
4-2-2-7 theme() 함수에 대해 알아보기 317
예제1 - EDA연습 - 상관관계가 높은 변수쌍을 찾아라 322
예제2 - EDA연습 - 다이아몬드 데이터 분석하기 327
예제3 - EDA연습 - 대장암 데이터 분석하기 334
실전예제11 - 섬세한 그래프를 그려 데이터 분석하기 346
실전예제12 - 시계열데이터 라인 그래프로 나타내기 352
실전예제13 - dplyr패키지를 이용해 원하는 데이터 쉽게 선택해 그래프로 나타내기 358
실전예제14 - dplyr패키지를 이용해 필요한 데이터를 만들고 그래프로 나타내기 364
실전예제15 - reshape2패키지의 melt()를 이용해 데이터를 가공 후 그래프로 나타내기 368
실전예제16 - 클리블랜드 점 그래프 그리기 376
실전예제17 - 시간에 따른 연령별 인구 변화 그래프 그리기 380
4-3 보고를 위한 그래프 그리기 - D3.js와 JS 사용하기 386
4-3-1 설치하기 387
4-3-2 rCharts패키지 기본사용하기 387
4-3-2-1 nPlot()에 대해 자세히 살펴보기 388
실전예제18 - Sankey Diagram으로 예산 한눈에 보기 396
실전예제19 - 작년에 구입한 아파트 값은 올랐을까? 406
챕터5 - 확률
통계로 개념 이해하기
5-1 도대체 확률이 뭔가요?
5-1-1 주사위 게임 같은 정해진 확률 구하기 420
5-1-2 '친구가 저녁밥을 먹게 될' 확률 구하기 424
5-2 확률을 그래프로 나타내기 - 확률분포 425
5-3 정규분포 그래프 430
5-4 표준정규분포 432
5-5 중심극한정리 434
5-6 이항분포 그래프 435
5-7 확률질량함수를 정규분포 그래프로 바꾸기 437
5-8 내 주장 증명하기(가설검증) 438
R로 실력 다지기
5-9 확률관련 값 구하기
5-9-1 난수(랜덤값) 생성하기 444
5-9-1-1 균일한 난수(랜덤값)생성하기 445
5-9-1-2 정규분포를 따르는 난수(랜덤값)생성하기 446
5-9-1-3 이항분포 난수(랜덤값) 생성하기 446
5-9-2 확률계산하기 447
5-9-3 구간확률계산하기 448
5-9-4 확률분포 그래프 그리기 450
예제1 - 확률밀도함수 그래프 그리기 450
예제2 - 확률질량함수 그래프 그리기 452
예제3 - 주어진 데이터에서 밀도함수 구하기 453
예제4 - 토익학원 학습법 가설검증하기 456
예제5 - 국어 선생님의 학습법 가설검증하기 458
챕터6 - 회귀 분석
6-1 단순 선형 회귀모델 이해하기 464
6-1-1 회귀분석를 왜 할까 464
예제1 - 기본 회귀모델 실습 476
예제2 - 안타와 홈런 변수를 활용한 회귀분석 예제 479
예제3 - mtcars데이터셋으로 회귀분석하기 482
더 생각하기 - 회귀모델과 인과관계 484
6-2 선형 회귀 모델 검증하기 486
6-2-1 결정계수 486
6-2-2 선형 회귀모델 가설검증 489
6-2-3 잔차 관련된 그래프를 그려 회귀접합성 검증하기 491
예제1 - 잔차(Residuals) 그래프를 그려 검증하기 496
예제2 - 키와 몸무게 회귀모델 구하기 502
예제3 - 2015 KBO 야구 데이터 분석하기 505
6-3 다중선형회귀분석(Multiple linear regression) 510
예제1 - mtcars 데이터셋 다중선형회귀분석 512
예제2 - 지구 최고온도에 영향을 미치는 다중회귀분석하기 514
예제3 - 2015 KBO 야구 데이터 다중선형회귀분석하기 517
예제4 - 3D 그래프로 회귀모델 나타내기 520
6-4 직선이 아닌 2차 함수를 회귀모델로 사용하기 526
예제1 - 다항회귀모델 만들기 528
예제2 - poly()함수를 이용해 간단하게 코딩하기 530
6-5 추정치 구하기 534
예제1 - 야구 데이터로 추정하기 534
예제2 - mtcars데이터로 예측하기 539
예제3 - diamonds데이터로 캐럿에 따른 가격 예측하기 543
예제4 - 예측값 신뢰구간으로 나타내기 546
6-6 다중선형회귀분석에서 변수선택법 550
6-6-1 변수 선택 개념 이해하기 550
예제1 - 최상부분집합선택법 - step()함수를 이용 556
예제2 - 최상부분집합선택법 - leaps패키지를 이용 560
예제3 - 전진선택법으로 선택하기 565
예제4 - 후진제거법을 이용해 따라해보기 568
6-7 명목변수 사용방법 572
예제1 - 명목형 변수를 이해하고 해석하기 576
예제2 - mtcars의 명목형 변수 회귀모델 구하기 579
예제3 - 다중선형회귀모델에서 명목형 변수 사용하기 581