일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- cs231n
- Pull Request
- 히비스서커스
- GIT
- 사회조사분석사2급
- Jupyter notebook
- HookNet
- numpy
- vscode
- cocre
- 티스토리챌린지
- docker
- 프로그래머스
- AIFFEL
- Multi-Resolution Networks for Semantic Segmentation in Whole Slide Images
- aiffel exploration
- 오블완
- logistic regression
- docker exec
- 도커
- ssh
- 기초확률론
- WSSS
- Decision Boundary
- airflow
- 코크리
- 백신후원
- CellPin
- docker attach
- IVI
- Today
- Total
히비스서커스의 블로그
[Python] colab에서 konlpy 사용 및 구글드라이브에서 데이터 불러오기 본문
어제 GUI로만 보던 우분투를 CLI도 구경해보고 Xorg를 kill도 해보아서 그런지 아니면 vi로 README.md파일을 수정하다가 다른 파일들을 나도 모르게 건드려서 인건지 몰라도 노트북이 로그인 무한루프에 빠져버렸다...
그래서 당분간은 colab을 사용할 예정인데 이번 노드의 프로젝트가 한국어를 자연어 처리해야 하여 konlpy를 사용하고 데이터를 불러와야했다. 여기서 문제가 생기는데
1. colab에 konlpy 라이브러리가 안 깔려있다.
2. colab에서 데이터를 어떻게 불러오는 것인가? (colab 자체에 올리는 방법 말고?)
이 두 가지를 중점으로 글을 써보려 한다.
1. colab에 konlpy 라이브러리가 안 깔려있다.
1) 먼저, colab에서 프롬프트(쉘) 명령어를 줄 수가 있었다. 명령어 앞에 느낌표를 붙여주면 된다! 아래의 코드를 colab에서 실행해보자.
!apt-get update
!apt-get install g++ openjdk-8-jdk
!pip install konlpy JPype1-py3
!bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)
실행하면 아래와 같은 내용이 나오며 5분 정도 걸린다.
2) 다음 코드가 실행되는지 확인하면 된다.
from konlpy.tag import Mecab
tokenizer = Mecab()
아무 메시지가 뜨지 않는다면 성공!!
2. colab에서 데이터를 어떻게 불러오는 것인가? (colab 자체에 올리는 방법 말고?)
이전에 colab에서 데이터를 불러온 적이 있었는데 colab 자체에다 올리고 불러오는 것을 성공한 적이 있었다. 그런데 그 이후에는 자꾸 오류가 떴고, 올릴 수 있는 용량도 그리 많지 않은 것 같았다. 그래서 알아본 결과 colab이 구글드라이브와 연동되어서 구글 드라이브에 저장된 파일을 불러올 수 있다는 것을 알게 되었다. (colab에서 저장한 ipynb 파일이 구글드라이브에 저장되고 있는 것도 이제야 확인을 했다..!)
1) 다음의 코드를 입력!
from google.colab import drive
drive.mount('/content/gdrive')
그러면 아래의 사진과 같이 키를 입력하라는 문구가 나온다.
2) Go to this URL ina browser 옆의 링크를 클릭!
구글 계정 선택 - 액세스 허용 - 키 획득!
3) 얻은 키를 입력!
4) 구글 드라이브에 data 파일(csv나 txt) 올리기
5) 파일 읽어들이기
import pandas as pd
data = pd.read_table('/content/gdrive/My Drive/data.txt') # txt파일인 경우
data = pd.read_csv('/content/gdrive/My Drive/data.csv') # csv파일인 경우
에러가 나지 않는다면 성공!
colab에서 코딩을 하고 돌려보는 것이 남의 컴퓨터로 하는 느낌은 여전하지만 (틀린말도 아니지만) 그래도 거부감은 줄일 수 있었다. 하지만 최대 단점은 1)과 2) 둘 다 모두 새로 열면 다시 돌려줘야 한다는 것... 누가 구글 컴퓨터에 저것좀 설치해줘요
자세한 내용은 아래의 블로그에서 찾아보길 바란다.
참고한 내용:
2) m.blog.naver.com/anne9/221798711142
2021년 1월 14일 열두 번째 기록
히비스서커스
'Programming > Python' 카테고리의 다른 글
[Python] python으로 multiprocessing 해보기 (2) | 2021.06.30 |
---|---|
[Numpy] 2 dimension, 3 dimension array에서 slicing하기 (2) | 2021.06.25 |
[Python] 파이썬 클래스, 모듈 (0) | 2021.01.28 |
[Tensorflow] RNN에서 padding 방법 (pre vs post) (0) | 2021.01.26 |
[Python] 파이썬 기초 (함수,변수, 제어문, 리스트,딕셔너리) (0) | 2021.01.04 |