StoryCode

KoNLPy, TF-IDF Vectorizor

형태소분석,Lucene,mecap,komoran,tf-idf vector
반응형

# 참조 : https://konlpy.org/ko/v0.5.2/install/

# 참조 : http://doc.mindscale.kr/km/unstructured/03.html

# 참조 : https://dianakang.tistory.com/48

 

형태소 분석기는 형태소를 분석해주는 프로그램이다. konlpy는 Python에서 사용할 수 있는 오픈소스 형태소 분석기로, 기존에 공개된 꼬꼬마(Kkma), 코모란(Komoran), 한나눔(Hannanum), 트위터(Twitter), 메카브(Mecab)를 한 번에 설치하고 동일한 방법으로 쓸 수 있게 해준다. (단 메카브는 윈도에서 사용할 수 없다)

 

sudo apt-get install g++ openjdk-8-jdk python3-dev python3-pip curl
python3 -m pip install --upgrade pip
python3 -m pip install konlpy
sudo apt-get install curl git
bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)
# 도커 기반일 경우
> FROM python:3

> ENV JAVA_HOME /usr/lib/jvm/java-1.7-openjdk/jre
> RUN apt-get update && apt-get install -y g++ default-jdk
> RUN pip install konlpy

> # Write left part as you want

 

 

 

# 다운로드 
https://archive.ics.uci.edu/ml/datasets/Sentiment+Labelled+Sentences
> vi amazonpkl.py
import pandas as pd

df = pd.read_csv('amazon_cells_labelled.txt', sep="\t", header=None)

content = df[0]
sentiment = df[1]

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(stop_words='english',
                        lowercase=True,
                        max_features=1000)
tdm = tfidf.fit_transform(content)
print(tfidf.get_feature_names()[-10:])

import joblib
with open('amazon.pkl', 'wb') as f:
    joblib.dump(
        {'vectorizer': tfidf, 'tdm': tdm, 'sentiment': sentiment},
        f
    )





> python amazonpkl.py
> vi amazonpklinfo.py
import joblib

with open('amazon.pkl', 'rb') as f:
    data = joblib.load(f)

locals().update(data)

count = tdm.sum(axis=0)

import pandas as pd
word_count = pd.DataFrame({
    '단어': vectorizer.get_feature_names(),
    '빈도': count.flat})

print(word_count.tail())




> python amazonpklinfo.py
반응형

'형태소분석,Lucene,mecap,komoran,tf-idf vector' 카테고리의 다른 글

KOMORAN 설치  (0) 2022.01.24
Mecab Kor 사용법  (0) 2022.01.24
기본 설치 및 테스트  (0) 2019.04.25