KoNLPy, TF-IDF Vectorizor
형태소분석,Lucene,mecap,komoran,tf-idf vector# 참조 : https://konlpy.org/ko/v0.5.2/install/
# 참조 : http://doc.mindscale.kr/km/unstructured/03.html
# 참조 : https://dianakang.tistory.com/48
형태소 분석기는 형태소를 분석해주는 프로그램이다. konlpy는 Python에서 사용할 수 있는 오픈소스 형태소 분석기로, 기존에 공개된 꼬꼬마(Kkma), 코모란(Komoran), 한나눔(Hannanum), 트위터(Twitter), 메카브(Mecab)를 한 번에 설치하고 동일한 방법으로 쓸 수 있게 해준다. (단 메카브는 윈도에서 사용할 수 없다)
sudo apt-get install g++ openjdk-8-jdk python3-dev python3-pip curl
python3 -m pip install --upgrade pip
python3 -m pip install konlpy
sudo apt-get install curl git
bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)
# 도커 기반일 경우
> FROM python:3
> ENV JAVA_HOME /usr/lib/jvm/java-1.7-openjdk/jre
> RUN apt-get update && apt-get install -y g++ default-jdk
> RUN pip install konlpy
> # Write left part as you want
# 다운로드
https://archive.ics.uci.edu/ml/datasets/Sentiment+Labelled+Sentences
> vi amazonpkl.py
import pandas as pd
df = pd.read_csv('amazon_cells_labelled.txt', sep="\t", header=None)
content = df[0]
sentiment = df[1]
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(stop_words='english',
lowercase=True,
max_features=1000)
tdm = tfidf.fit_transform(content)
print(tfidf.get_feature_names()[-10:])
import joblib
with open('amazon.pkl', 'wb') as f:
joblib.dump(
{'vectorizer': tfidf, 'tdm': tdm, 'sentiment': sentiment},
f
)
> python amazonpkl.py
> vi amazonpklinfo.py
import joblib
with open('amazon.pkl', 'rb') as f:
data = joblib.load(f)
locals().update(data)
count = tdm.sum(axis=0)
import pandas as pd
word_count = pd.DataFrame({
'단어': vectorizer.get_feature_names(),
'빈도': count.flat})
print(word_count.tail())
> python amazonpklinfo.py
'형태소분석,Lucene,mecap,komoran,tf-idf vector' 카테고리의 다른 글
KOMORAN 설치 (0) | 2022.01.24 |
---|---|
Mecab Kor 사용법 (0) | 2022.01.24 |
기본 설치 및 테스트 (0) | 2019.04.25 |