Sherry IT Blog

[python] 파이썬 공공데이터 csv 파일 읽어오기_인코딩 에러 해결 본문

BIgData

[python] 파이썬 공공데이터 csv 파일 읽어오기_인코딩 에러 해결

sherrylover 2020. 11. 18. 22:21
728x90
반응형

 

회사에서 진행하는 데이터분석 아카데미 프로젝트 마감이 얼마 남지 않았다.

 

데이터 수집은 다했는데 전처리가 관건일듯..

 

공공데이터 포털사이트에서 다운받은 cvs 파일을 pandas 모듈을 이용해 read_csv함수로 읽어왔는데 오류가 두둥!

 

 

결론적으로 파일을 utf-8인코딩형식으로 변환할 수 없다고 뜬다.

 

 

*해결방법

 

1. csv파일을 엑셀 프로그램을 이용해서 열어본다

 

헤더말고 불필요한 내용이 있는 파일들도 있는데 그럼 해당셀을 삭제해주면된다

 

 

2. 엑셀 메뉴 > 파일 > 다른이름으로 저장 > 파일형식 : csv utf8(쉼표로분리) 로 저장해주면된다

 

 

3. 수정한 파일을 다시 업로드 해주거나 경로에 맞춰 작성 후 실행한다

 

반대로 파일을 cp949형식으로 읽고싶다면 encoding='cp949'로 지정해주면됨

 

 

cp949란? windows에서 쓰이는 한글 코드셋.DOS랑 비슷

utf-8이란?  유니코드 즉,가변 길이 문자 인코딩(멀티바이트) 방식 중 하나

 

 

 

이제 전처리 하러가즈아..!

728x90
반응형
Comments