통일연구원 전자도서관

로그인

통일연구원 전자도서관

소장자료검색

  1. 메인
  2. 소장자료검색
  3. 특수자료

특수자료

단행본

(사회과학자를 위한) 데이터 과학: R을 이용한 사회과학 자료분석

개인저자
박종희 지음
발행사항
서울 : 사회평론아카데미, 2020
형태사항
505 p. : 천연색삽화, 도표, 초상 ; 26 cm
ISBN
9791189946760
청구기호
307.323 박75ㄷ
일반주기
권말부록: 갓허브 코드 이용하는 방법
서지주기
참고문헌과 색인 수록
소장정보
위치등록번호청구기호 / 출력상태반납예정일
이용 가능 (1)
1자료실00018582대출가능-
이용 가능 (1)
  • 등록번호
    00018582
    상태/반납예정일
    대출가능
    -
    위치/청구기호(출력)
    1자료실
책 소개
사회과학 연구자들이
“오류 가능성이 높은 자료분석 루틴”을 지양하고
21세기의 변화된 자료분석 환경에 걸맞는
새로운 사회과학 자료분석 루틴을 체득하도록 돕는다.

이 책은 21세기 사회과학 경험연구 방법을 새롭게 정립하기 위해 20세기 사회과학 경험연구 방법 중에서 핵심이 되는 내용을 정리하고 이를 베이지안 사회과학 방법론으로 종합하기 위한 논의를 전개했다. Part 1~3에서는 독립성을 검증하기 위한 분석으로부터 시작된 사회과학의 통계적 분석방법이 회귀분석과 일반선형모형, 그리고 최대 우도 추정을 거치면서 어떻게 하나의 통일된 체계를 갖추게 되었는지 살펴보았다. Part 4~5에서는 베이지안 방법의 기초와 추정방법에 대한 논의를 거쳐 은닉 마르코프 모형을 이용한 역사자료 분석방법을 소개했다. 은닉 마르코프 모형이 일반선형모형이나 패널모형, 네트워크모형과 결합하여 사회사적 과정의 구조적 변화를 설명하는 중요한 방법론적 도구가 될 수 있음을 밝혔다.
이 책에 등장한 모든 R코드는 저자의 깃허브(http://github.com/jongheepark/BayesianSocialScience/)에서 누구나 다운로드 받아서 직접 구현해 볼 수 있다. 책에 등장한 그래프와 테이블, 그리고 분석모형을 직접 하나씩 구현함으로써 독자들은 저자가 말하는 “사회과학자를 위한 데이터 과학”이 무엇인지를 직접 경험할 수 있다. 부록에 독자들이 이 책의 코드를 깃허브(http://github.com)에서 내려 받아 사용하는 방법을 소개한다.

스프레드 시트와 드랍다운 메뉴에 의존하는 자료분석은 치명적인 오류를 낳을 가능성이 매우 높다. R은 21세기의 새로운 자료분석 환경에 걸맞는 통합적 자료분석 플랫폼을 제공해 주는 뛰어난 통계 소프트웨어이다. 이 책은 사회과학자들이 R을 이용하여 21세기의 변화된 자료분석 환경에 걸맞는 새로운 자료분석 루틴을 체득하는 것을 돕기 위한 책이다.
이 책에서 말하는 21세기의 변화된 자료분석 환경이란 (1) 자료형태의 확대, 자료의 양적 증가, 자료처리 기술의 발전, (2) 모형의 복잡성과 다양성 증가, (3) 추정 방법의 다양화, 그리고 (4) 컴퓨터 연산 능력의 비약적 성장으로 요약할 수 있다. 저자는 지난 10여 년 동안 “사회과학자를 위한 데이터 과학이란 무엇인가?”를 고민해 왔으며 그 과정에서 느끼고 깨닫고 배운 바를 이 책에 정리하였다.
20세기 경험적 사회과학은 실험방법과 확률이론, 그리고 통계학을 수용하여 놀라운 성취를 이루었다. 21세기 경험적 사회과학이 자료분석 환경의 급격한 변화라는 도전을 과학성(scientificity) 향상의 기회로 만들 수 있을지는 전적으로 사회과학 경험연구자들의 손에 달려 있다고 볼 수 있다. 이 책은 그 도전의 길에 서 있는 사회과학자들에게 작은 안내서가 되고자 한다.
대학 수업 환경(수업시수)에 맞게 12장으로 구성했으며, 자료분석 도구로 R을 사용했다. 책에 등장하는 다양한 자료분석의 과정을 하나씩 따라가면서 분석모형을 구현해볼 수 있게 구성되어 있다. 정치외교학, 사회복지학, 사회학, 행정학, 심리학, 교육학 등 여러 사회과학 분야의 연구방법론 수업에 교재로 활용할 수 있다.

책의 구성과 내용

『사회과학자를 위한 데이터 과학: R을 이용한 사회과학 자료분석』이 데이터 과학에 대한 일반적인 책들과 다른 점은 사회과학 자료분석의 본질적 특징과 데이터 과학의 최신 연구방법이 어떻게 조화될 수 있을 것인가에 초점을 두고 있다는 점이다. 이를 위해서 이 책은 필요할 때마다 시간을 거슬러 올라가 19세기와 20세기 동안 새로운 과학적 분석방법이 사회과학에 어떻게 수용되었는지를 살펴본다.
이 책은 Part 1 “자료분석의 과학적 기초”에 대한 논의로부터 시작한다. Part 1은 저자가 생각하는 21세기 사회과학 자료분석 방법이 무엇인지에 대한 논의와 확률과 확률분포에 대한 논의를 전개하고 있다. 다른 책에 비하면 확률분포에 대한 논의가 상대적으로 많은 지면을 차지하고 있는데, 이는 사회과학 자료분석에서 모형 수립(model building)이 매우 중요하며 이를 위해서는 확률분포를 정확하게 이해하는 것이 매우 중요하다는 저자의 믿음 때문이다.
Part 2는 “자료에서 분석으로”라고 명명했다. 여기서는 연관성과 상관성에 대한 관심이 경험적 사회과학의 출발점이었으며 이를 경유해 선형 회귀모형이라는 중요한 사회과학 모형에 경험적 사회과학이 도달하는 과정을 설명하고 있다. 여기서 독자들은 회귀분석 모형과 회귀분석 모형의 추정을 분명히 구분해야 한다. 전자는 확률이론에 토대를 둔 통계모형이고 후자는 통계적 연산을 통해 모형의 모수를 계산하고 이를 해석하는 방법에 관한 것이다. 선형 회귀모형은 사회과학에서 가장 많이 사용되며 앞으로도 지속적으로 사용될 중요한 통계모형이다. 많은 복잡한 통계모형도 실은 선형 회귀모형의 기본 가정과 구조에 기반한 경우가 많다.
Part 3은 2가지 통계적 추론 방법을 소개하고 있다. 먼저 선형 회귀모형 추정을 위해 등장한 최소 제곱 추정법을 살펴보고 이를 보다 일반화해서 통계적 추론을 완성한 최대 우도 추정법을 검토한다. 세 번째 중요한 추론 방법인 베이지안 추론은 Part 4에서 소개한다.
Part 4는 베이지안 사회과학 방법론을 소개하고 마르코프 체인 몬테 카를로 방법을 이용한 추정법을 설명하고 있다. 베이지안 분석의 기본 구조와 주요 추정 방법에 대한 소개를 다루고 있다.
Part 5는 Part 4의 논의를 토대로 정량적 역사연구에서 베이지안 방법을 이용한 구체적인 연구결과를 소개하고 있다. 먼저 사회과학의 시간성(temporality)에 대한 논의를 토대로 베이지안 전환점 분석방법이 가진 장점을 설명하고 이를 적용한 중요한 통계모형을 차례로 소개하고 있다. 11장과 12장에 등장하는 모형에 대한 설명과 그래프는 모두 책 저술 과정에서 새롭게 작성된 것이다.
목차

서문

Part 1 자료분석의 과학적 기초

chapter 01 사회공학에서 사회과학으로

제1절 사회공학의 탄생
제2절 열광, 희열, 그리고 공황
제3절 맬더스 트랩은 존재하는가
제4절 사회과학 자료분석의 세 가지 장
제5절 21세기 사회과학 자료분석 방법론 58
요약 | 사회공학적 연구로 흐르지 않기 위해 사회과학 자료분석 시에 유의해야 할 점

chapter 02 확률

제1절 확률의 역사
제2절 확률의 전복
제3절 확률이론
제4절 순열
제5절 조합
제6절 확률변수
요약 | 확률

chapter 03 확률분포

제1절 확률분포와 자료 생성 과정
제2절 이산확률분포
제3절 연속확률분포
제4절 중심극한정리
제5절 확률분포의 확장
요약 | 확률분포

Part 2 자료에서 분석으로

chapter 04 독립성, 연관성, 그리고 상관성

제1절 연관성
제2절 상관성
제3절 생태학적 오류와 심슨의 역설
요약 | 독립성, 연관성, 그리고 상관성

chapter 05 회귀분석

제1절 회귀분석이란 무엇인가
제2절 선형 회귀분석의 수학적 기초: 1차 선형함수
제3절 선형 회귀모형의 기본 구조
제4절 선형 회귀모형의 해석
제5절 R을 이용한 골튼의 신장유전 회귀분석
요약 | 회귀분석

Part 3 통계적 추론

chapter 06 선형 회귀분석 모형과 최소 제곱 추정법

제1절 최소 제곱 추정법이란 무엇인가
제2절 단순 선형 회귀모형
제3절 다중 선형 회귀모형
제4절 회귀분석 모형의 진단
제5절 caret 패키지를 이용한 선형 회귀분석 모형의 교차타당성 검증
제6절 선형 회귀분석은 다른 최적화 방법에 비해 열등한 분석 방법인가
제7절 종속변수와 설명변수가 뒤바뀌면 결과가 달라지는가
요약 | 최소 제곱 추정법

chapter 07 일반 선형 모형과 최대 우도 추정법

제1절 최대 우도 추정법을 이용한 통계적 추론
제2절 일반 선형 모형
제3절 최대 우도 추정법을 이용한 일반 선형 모형의 추정
요약 | 최대 우도 추정법

Part 4 베이지안 사회과학 방법론

chapter 08 베이지안 통계학

제1절 두 개의 봉투 문제
제2절 베이지안 분석의 구성요소
제3절 베이즈 정리
제4절 사전 확률분포에 대한 논쟁과 드 피네티의 정리
제5절 사회과학과 베이지안 분석
제6절 베이지안 사회과학 방법론이란 무엇인가
요약 | 베이지안 통계학

chapter 09 베이지안 분석 방법

제1절 켤레성
제2절 마르코프 체인 몬테 카를로 방법
제3절 메트로폴리스 해이스팅스 방법
제4절 깁스 추출
제5절 자료 증강법
제6절 EM 알고리듬
요약 | 베이지안 분석 방법

Part 5 분석 방법의 확장

chapter 10 역사의 시간성과 베이지안 분석법

제1절 사회과학과 시간성
제2절 정상 시계열 모형
제3절 전환점 모형
제4절 은닉 마르코프 모형
제5절 비균일 은닉 마르코프 모형을 이용한 역사 연구
요약 | 시간성과 베이지안 분석법 391

chapter 11 베이지안 전환점 분석 모형

제1절 베이지안 선형 회귀분석 전환점 모형
제2절 프로빗 회귀분석 전환점 모형
제3절 서수형 프로빗 회귀분석 전환점 모형
제4절 푸아송 회귀분석 전환점 모형
제5절 패널 회귀분석 전환점 모형
제6절 기술적 전환점 분석과 구조적 전환점 분석
요약 | 베이지안 전환점 분석 모형

chapter 12 베이지안 방법을 이용한 네트워크 전환점 분석

제1절 네트워크란 무엇인가
제2절 네트워크 시각화
제3절 네트워크 중심성 분석
제4절 네트워크 전환점
제5절 강대국 동맹 네트워크에 대한 응용
요약 | 베이지안 방법을 이용한 네트워크 전환점 분석

chapter 13 결어


참고문헌 487
찾아보기 494
부록: 깃허브 코드 이용하는 방법