250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- IAM
- AWSCloudPractitioner
- 쉘스크립트
- 프로그래머스
- CLF-01
- 클라우드자격증
- hadoop
- Identity and access management
- mysql
- CCAAdministrator
- programmers
- RDBMS
- 클라우데라자격증
- CCA131
- AWS자격증
- 하둡
- 클라우드컴퓨팅
- sql자격증
- 리눅스
- Multi Factor Authentication
- 빅데이터
- 데이터베이스
- hive
- 빅데이터실무자격증
- 파이썬
- SQL
- SQLD
- 코딩테스트
- EC2
- MFA
Archives
- Today
- Total
Sherry IT Blog
[python] 파이썬 공공데이터 csv 파일 읽어오기_인코딩 에러 해결 본문
728x90
반응형
회사에서 진행하는 데이터분석 아카데미 프로젝트 마감이 얼마 남지 않았다.
데이터 수집은 다했는데 전처리가 관건일듯..
공공데이터 포털사이트에서 다운받은 cvs 파일을 pandas 모듈을 이용해 read_csv함수로 읽어왔는데 오류가 두둥!
결론적으로 파일을 utf-8인코딩형식으로 변환할 수 없다고 뜬다.
*해결방법
1. csv파일을 엑셀 프로그램을 이용해서 열어본다
헤더말고 불필요한 내용이 있는 파일들도 있는데 그럼 해당셀을 삭제해주면된다
2. 엑셀 메뉴 > 파일 > 다른이름으로 저장 > 파일형식 : csv utf8(쉼표로분리) 로 저장해주면된다
3. 수정한 파일을 다시 업로드 해주거나 경로에 맞춰 작성 후 실행한다
반대로 파일을 cp949형식으로 읽고싶다면 encoding='cp949'로 지정해주면됨
cp949란? windows에서 쓰이는 한글 코드셋.DOS랑 비슷
utf-8이란? 유니코드 즉,가변 길이 문자 인코딩(멀티바이트) 방식 중 하나
이제 전처리 하러가즈아..!
728x90
반응형
'BIgData' 카테고리의 다른 글
HDFS 데이터 이관 후 hive에서 테이블 조회 안될경우 해결 명령어 (0) | 2021.02.02 |
---|---|
CCA Administrator Exam (CCA131) 합격! / 클라우데라 빅데이터 개발자 관련 자격증 (1) | 2021.01.28 |
CCA Administrator Exam (CCA131) 자격증 시험 후기 (2) | 2021.01.27 |
CCA Administrator Exam (CCA131) 자격증 준비하기 (0) | 2021.01.22 |
[빅데이터]RDBMS와 맵리듀스 비교 (0) | 2020.12.12 |
Comments