본문 바로가기
Analysis Tools/R

R 기본 명령어(cf. python) - [Dataframe, %>% Handling]

by Finn# 2024. 4. 1.
728x90

 

Intro

R 기초 마지막으로 dataframe과 해당 자료형을 활용한 Data handling에 대한 내용을 정리해보겠습니다. dataframe이라는 자료형은 python - pandas에서도 유용하게 사용하고 있으며 해당 라이브러리와 Numpy를 활용하여 Data handling에 적극활용하는 유용한 handling 도구입니다.


 

Dataframe 톺아보기

기본적으로 read.csv("000.csv)"로 데이터를 불러오면 Dataframe 자료형으로 받아오지만, 이번에는 직접 dataframe을 만드는 과정에 대해서 살펴보고 사용할 수 있는 handling 도구에 대해 알아보겠습니다. 먼저 Dataframe을 만들기 위해선 배열이 필요합니다.

 

Dataframe 생성

Dataframe 생성은 코드의 가독성을 위해서 먼저 사용할 컬럼을 정의한 이후에 data.frame()함수를 활용해서 dataframe 자료형 안에 데이터를 담아보겠습니다. 여기서 한가지 Python과 유사한 점은 Ipython.display()함수처럼 시각적 효과가 입혀진 테이블의 형태로 보기 위해서 View()함수를 쓸 수 있다는 점입니다.



Dataframe.column Handling

 다음으로는 생성된 dataframe에서 column을 Handling하는 방법에 대해서 살펴보겠습니다.  일반적으로 python - pandas.DataFrame() 모듈에서는 아래 코드 사진에서 달아놓은 주석처럼 컬럼(series 형태)을 불러올 수 있습니다. R에서는 "."대신 "$" 표시를 사용합니다. 그리고 column 전체에 대한 정보를 확인할 때는 names라는 메소드를 통해 확인할 수 있습니다. python에서는 pandas.Dataframe().columns를 통해 확인할 수 있습니다.

 

 

 

Dataframe 정보확인

 Python에서 사용하는 Dataframe을 통해 데이터가 얼마나 저장되어있는지나 컬럼들은 어떤 자료형을 가지고 있는 지에 대한 정보 등을 확인하기 위해서  pandas.Dataframe().info(), pandas.Dataframe().describe() 등의 함수를 활용하곤 합니다. R에서는 해당 함수들로부터 얻을 수 있는 정보들과 비슷한 정보들을 제공하는 함수들이 존재하는데 자세한 내용은 아래 사진을 참고바랍니다.

Info에서 얻을 수 있는 정보들과 유사한 정보 : str


위 첨부 사진을 살펴보면 컬럼의 자료형과 전체 Dataframe의 사이즈 정보를 확인해볼 수 있습니다.

describe와 유사한 정보를 얻을 수 있는 함수 : summary

 

위 첨부 사진을 살펴보면 컬럼의 기술통계량값들을 확인해볼 수 있습니다. 완전 pandas.Dataframe().describe와 동일함을 살펴볼 수 있습니다.

 

 

 

Dataframe Handling

마지막으로 dplyr 라이브러리와 %>%(파이프 연산자)를 활용하여 Dataframe에서 원하는 정보를 추출하거나 요약하고 정렬하는 등의 Datahandling에 대한 함수를 정리해보았습니다. 자세한 실행 결과는 직접 실행해서 보시면 됩니다. 간단하게 어떤 명령들을 담고 있는 지는 주석을 통해 요약해놓았습니다.

 

%>% + rename, filter, select, summarise, arrange, mutate

 


R 기본 명령어 마무리

R 기본 명령어에 대한 내용은 여기서 마무리하도록 하겠습니다.

다음에는 실제로 Dataframe을 가지고 어떻게 Handling할 수 있는 지에 대한 정보들을 정리해보도록 하겠습니다.


참고자료

[1] head() : pandas.Dataframe().head()

[2] tail() : pandas.Dataframe().tail()

[3] dim() : numpy.ndarray.dim()

[4] view() : ipython.display()

[5] summary() : padas.Dataframe().summary()


인스타 주소 🎗

https://www.instagram.com/f.inn_sharp/

반응형