KoNLPy, TF-IDF Vectorizor StoryCode

# 참조 : https://konlpy.org/ko/v0.5.2/install/

# 참조 : http://doc.mindscale.kr/km/unstructured/03.html

형태소 분석기는 형태소를 분석해주는 프로그램이다. konlpy는 Python에서 사용할 수 있는 오픈소스 형태소 분석기로, 기존에 공개된 꼬꼬마(Kkma), 코모란(Komoran), 한나눔(Hannanum), 트위터(Twitter), 메카브(Mecab)를 한 번에 설치하고 동일한 방법으로 쓸 수 있게 해준다. (단 메카브는 윈도에서 사용할 수 없다)

sudo apt-get install g++ openjdk-8-jdk python3-dev python3-pip curl

python3 -m pip install --upgrade pip

python3 -m pip install konlpy

sudo apt-get install curl git

bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

# 도커 기반일 경우
> FROM python:3

> ENV JAVA_HOME /usr/lib/jvm/java-1.7-openjdk/jre
> RUN apt-get update && apt-get install -y g++ default-jdk
> RUN pip install konlpy

> # Write left part as you want

# 다운로드 
https://archive.ics.uci.edu/ml/datasets/Sentiment+Labelled+Sentences

> vi amazonpkl.py
import pandas as pd

df = pd.read_csv('amazon_cells_labelled.txt', sep="\t", header=None)

content = df[0]
sentiment = df[1]

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(stop_words='english',
                        lowercase=True,
                        max_features=1000)
tdm = tfidf.fit_transform(content)
print(tfidf.get_feature_names()[-10:])

import joblib
with open('amazon.pkl', 'wb') as f:
    joblib.dump(
        {'vectorizer': tfidf, 'tdm': tdm, 'sentiment': sentiment},
        f
    )





> python amazonpkl.py

> vi amazonpklinfo.py
import joblib

with open('amazon.pkl', 'rb') as f:
    data = joblib.load(f)

locals().update(data)

count = tdm.sum(axis=0)

import pandas as pd
word_count = pd.DataFrame({
    '단어': vectorizer.get_feature_names(),
    '빈도': count.flat})

print(word_count.tail())




> python amazonpklinfo.py

'형태소분석,Lucene,mecap,komoran,tf-idf vector' 카테고리의 다른 글

KOMORAN 설치 (0)	2022.01.24
Mecab Kor 사용법 (0)	2022.01.24
기본 설치 및 테스트 (0)	2019.04.25

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

'형태소분석,Lucene,mecap,komoran,tf-idf vector' 카테고리의 다른 글

티스토리툴바