기타19 셀로맥스 건기식 특강 (3) 보호되어 있는 글 입니다. 2024. 3. 22. 건강보험 약품비 현황 추이 - R로 그래프 그리기 통계청에서 교과서에 있는 데이터 못찾겠어서 걍 손으로 입력함 1. 약품비(조원) 통계 line plot ###2024-03-20 ###사회약학_약품비 통계 그려보려고 library(ggplot2) library(readxl) drug2 2024. 3. 20. 셀로맥스 건기식 특강 (1) - 양인규 약사님 보호되어 있는 글 입니다. 2024. 3. 8. R 독학하기 - 6 (2. 그래프에 객체 추가) - 기본 그래프에 각종 객체를 추가하여 그래프 내용을 명확하게 표현할 수 있음 - 그래프에 선이나 도형, 텍스트 등 다양한 객체를 추가하여 그래프의 가독성을 높이고 명확하게 전달할 수 있음 - 예를들어 직선을 그려 그래프 추세나 변동추이, 원하는 위치를 표현하거나, 도형을 그려 그래프의 특정 영역을 강조하거나, 값을 텍스트로 그래프에 직접 표현할 수 있음 - 그래프에 직선을 표현할 때 : 절편과 기울기를 이용 절편 (intercept) : 직선이 x축이나 y축과 만나는 좌표 기울기(slope) : 직선의 경사도 (값이 클수록 선이 경사지다) = 이러한 절편과 기울기는 회귀분석(regression analysis)으로 구할 수 있음 1. 사선 그리기 : geom_abline() 함수 그래프에 사선을 추가해.. 2024. 2. 27. R studio 오류해결하기 : 빨간 x 표시 오류 (expected ',' after expression) 매 구문마다 빨간색 하얀색 엑스 표시가 떠서 뭔일인가하고 구글링해보니 x표시가 시작된 지점에 뭔가 잘못쓰인 뭔가가 있을거라함 위로 올려보니 젤 처음 구문 앞에 ( 표시가 있는걸 확인함 지워주니 오류 표시 없어짐 * 정보 : x 표시 위에 마우스 커서 올려두면 오류 정보를 볼 수 있다 (expected ',' after expression) 2024. 2. 27. R 독학하기 - 6 (ggplot2 패키지) (1. 그래프 그리기) 데이터 시각화 : 복잡해 보이는 수치 데이터를 이미지화하여 시각적으로 전달하는 것 ggplot2 패키지 : R에서 시각화를 할 때 가장 많이 쓰이는 패키지 (각종 그래프 함수 포함) ggplot() 함수 : 기본적인 그래프 틀을 만드는 함수. 그 안에 다양한 이미지 객체 레이어를 포개는 방식으로 그래프 표현. 1. 그래프 기본 틀 만들기 : ggplot() 함수 - ggplot() 함수 : 그래프를 표현하는 좌표를 그리기 위한 판을 짜는 함수. ggplot(데이터 세트, aes(데이터 속성)) ggplot() 함수 안에서 aes() 함수를 사용해 x축과 y축에 변수를 매핑하여 그래프의 가장 기본 틀을 생성한다. > str(airquality) 'data.frame':153 obs. of 6 variabl.. 2024. 2. 23. R 독학하기 - 5 (4. 데이터 정제) 관측치 (observations) : 정상적인 값(행) 결측치 (missing value) : 누락된 값 이상치 (outlier) : 일반적인 값보다 편차가 큰 값 -> 결측치와 이상치는 데이터 분석 시 오류를 야기하거나 분석 결과를 왜곡시킬 수 있으므로 '데이터 정제(data cleansing)'를 통해 처리해야함 [1] 결측치 1. 결측치 확인하기 결측치 = 결측값 : 데이터가 없는 것을 의미 (NA로 표시 (Not Available)) (다른 컴퓨터 언어에서는 NULL로 표시하기도함) - 결측치를 연산하면 결과가 결측치(NA)로 나오므로 데이터에 결측치가 있는지 확인하여 연산에서 결측치를 제외 또는 제거 또는 다른값으로 대체해야함 - NULL : 아무것도 없음, NA : 결측치, NaN : 비수치를.. 2024. 2. 23. R 독학하기 - 5 (3. 데이터 구조 변형) reshape2 패키지 : 데이터를 분석하기 편한 형태로 가공할 때 자주 사용하는 패키지. reshape2 패키지의 대표적인 두 함수 melt() 함수 : 열이 긴 형태의 데이터를 행이 긴 형태로 바꾸는 함수 cast() 함수 : 행이 긴 형태의 데이터를 열이 긴 형태로 바꾸는 함수 1. 가로로 넓은 모양 데이터를 -> 세로로 긴 모양으로 바꾸기 : melt() 함수 - melt() 함수(열을 행으로 바꾸는 함수)에서 쓰이는 옵션들 data : 변형할 데이터 세트를 입력 na.rm = TRUE : 결측치를 제외하는 옵션이다. na.rm = FALSE : 결측치를 포함하는 옵션이다. value.name = "value" : 행으로 바꾸고 싶은 열 이름을 입력 install.packages("reshape2.. 2024. 2. 22. R 독학하기 - 5 (2. 데이터 가공) 데이터 가공 (=데이터 전처리(preprocessing) =데이터 핸들링 =데이터 마트(mart)) : 데이터를 분석할 때 변수를 생성하거나 변수명을 변경하고, 조건에 맞는 데이터를 추출하거나 변경하고, 데이터를 정렬하고 병합하는 일련의 과정 : 이렇게 데이터를 준비하는 과정이 실제 데이터를 분석하는 과정보다 어렵고 시간도 오래걸림. 1. 필요한 데이터 추출하기 - 전체 데이터 중에서 필요한 데이터만 추출하기 - 두가지 방법이 있음 1) 사용할 변수를 선택하는 방식 2) 원하는 조건 값에 맞는 데이터를 추출하는 방식 - 데이터 가공에 사용할 데이터 추출, 정렬, 요약, 결합 함수는 dplyr 패키지에 포함된 함수이므로 패키지를 로드한다. library(dplyr) - 원시데이터로 Sample1.xlsx를.. 2024. 2. 22. R 독학하기 - 5 (1. dplyr 패키지) [1] dplyr 패키지 - dplyr 패키지 : 데이터 처리 패키지로, 사용자 친화적으로 데이터 프레임을 조작할 수 있다. - R의 기본 내장 함수만으로도 데이터를 가공할 수 있지만, dplyr 패키지를 사용하면 프로그래밍에 익숙하지 않아도 함수를 쉽고 빠르게 사용할 수 있다는 장점이 있다. 1. dplyr 패키지 설치 및 로드 install.packages("dplyr") library(dplyr) - dplyr을 로드했을 때 위와 같은 메시지가 출력된다는 것은 오류는 아니고 해당 패키지에 기존에 사용중인 함수와 동일한 이름의 함수가 있다는 알림 메시지이다. - 이처럼 다른 패키지에 동일한 함수가 있을 때는 특정패키지임을 표시하는 :: 더블 콜론 연산자를 사용한다. - 예를 들어 dplyr 패키지의 .. 2024. 2. 16. R 독학하기 - 4 (3) 그래프 graph : 데이터를 간결하고 쉽게 이해할 수 있도록 이미지화/시각화한 것 ex. 상자그림(boxplot), 막대그래프(bar chart), 히스토그램(histogram), 파이차트(pie chart), 줄기 잎 그림(stem-and-leaf plot), 산점도(scatterplot) 등 확실히 시각화를 해야~ 한눈에 보기도 쉽고 이해도 쉽고 흥미 끌기도 쉽고 재미도 있고 1. 막대 그래프 그리기 막대그래프 (bar chart) : 범주형 데이터(성별, 지역처럼 연속성 없는 데이터)의 수량이 많고 적음을 나타낼 때 적합하다. 각 항목의 수량 파악이 쉬움. 1) freq() 함수 앞에서 배운것처럼, freq() 함수는 빈도분포를 알아볼 때 사용하는데, 여기서 plot 옵션을 설정하면 막대그래프를 .. 2024. 2. 15. R 독학하기 - 4 (2) 앞에서 원시 데이터를 조회할 때 View() 함수를 사용했었다. 근데 R은 모든 데이터를 메모리로 불러오기 때문에 View() 함수는 시간이 오래걸린다. 그래서 실제 데이터 분석에서 데이터를 파악할 때는 '데이터 요약' 이라는 방법을 활용한다. ▶학습목표 : 내장데이터 확인 -> 데이터 요약 -> 데이터 특성 파악 1. 데이터 전체 확인하기 : data() 함수 - 내장 데이터 : R에서 기본으로 제공하는 데이터 - data() 함수 : 내장 데이터 세트 목록을 전부 확인할 수 있음 data() 이중 BOD (Biochemical Oxygen Demand) 데이터세트가 어떤 내용인지 궁금하니까 그걸 살펴보겠음 data("BOD") Environment 창에 BOD 라는 변수가 생긴걸 볼 수 있음. 옆에있.. 2024. 2. 14. R (R studio) 업데이트하는 방법 / 패키지 업데이트하는 방법 console 창에 R을 업데이트해야한다는 문구가 뜸. 광고 제외하고 제일 먼저 뜬 R 공식 사이트. 중간에 파란 글씨로 보이는 download R 을 클릭해줌. 중간쯤에 Korea를 찾아서 링크를 클릭해줌. 윈도우 사양을 사용중이기에 Download R for Windows를 선택해줌. install R for the first time을 선택해줌. 근데 난 처음으로 다운로드 하는게 아닌데. 설명을 읽다보니 How do I update packages in my previous version of R? 링크가 있음. 선택해줌. 2.8 What's the best way to upgrade? 에 그 답변이 있음. 그냥 새로 다 깔고, 지난 버전은 안쓸거면 알아서 (수동으로) 지워라. 하는 말씀 Downl.. 2024. 2. 13. R 독학하기 - 4 (1) 1. 데이터 수집하기 데이터 수집 : 분석할 데이터를 준비하는 과정을 이르는 말. 데이터를 준비하는 방법 ? - 직접 데이터를 입력하기 - 벡터나 데이터 프레임 등을 R에 함수로 입력하기 - 외부 데이터를 가져오기 - .txt, .csv, .xlsx 등과 같이 이미 만들어져 있는 데이터 파일을 가져오기 - 서버에서 데이터를 호출하기 - 이때 직접 입력하거나 외부에서 가져온 데이터, 즉 가공하지 않은 처음의 데이터는 원시데이터 (raw data) 라고 한다. 1) 직접 데이터 입력하기 원시 데이터 입력 : R에서 분석할 데이터 (값) 을 직접 입력하여 저장하는 단계 c() 함수를 사용하여 값을 변수에 할당함 (벡터 만드는 법과 동일) 변수명 2024. 2. 13. R 독학하기 - 3 1. 변수와 함수 변수 (variable) : 특정 범위 안에서 다양하게 변하는 값. 숫자, 문자 등. 함수 (function) : 특정한 기능을 수행하기 위해 사전에 설계된 프로그래밍 구문을 묶어 놓은 것. 1) 변수 만들기 변수 만들때의 규칙 1. 첫 문자에는 반드시 영문자 또는 마침표를 사용한다. 2. 첫 문자에는 숫자, 언더바 (_) 를 사용할 수 없다. 3. 마침표(.)와 언더바(_)를 제외한 특수문자는 사용할 수 없다. 4. 대문자와 소문자를 구분한다. 5. 변수명 중간에 빈칸을 넣을 수 없다. * R은 대문자와 소문자를 구분하는 언어이기 때문에 항상 구분해서 사용한다. R에서 변수를 생성할 때는 2024. 2. 13. 이전 1 2 다음