본문 바로가기
728x90

Machine Learning6

상관 분석 / Correlation Analysis / 피어슨 / 스피어만 / 켄달 상관계수 상관 분석의 개념과 종류 상관분석(Correlation Analysis)이란? 두 확률 변수 사이의 관련성을 파악하는 방법 method에는 피어슨 상관계수, 스피어만 상관계수, 켄달의 순위 상관계수 등이 있다. 상관계수는 df.corr() 함수를 사용해 계산한다. 상관계수의 절대값이 0에 가까울수록 두 변수의 상관성이 낮고, 1에 가까울수록 높다고 본다. 0.5 가 넘으면 높다. Pearson Correlation Coefficient 피어슨 상관계수(Pearson Correlation Coefficient)는 두 변수 간의 선형적 상관관계를 측정 0보다 큰 상관계수 값은 양의 선형적 상관관계가 있음을 뜻한다. 0보다 작은 상관계수 값은 음의 선형적 상관관계가 있음을 뜻한다. 상관계수가 1이면 두 변수를.. 2021. 3. 30.
머신러닝 / Iris 데이터 분류 / 5가지 모델 작성법 (Logistic Regression/SVM/Random Forest/Naïve Bayes/Tree) Iris 데이터 분류 1. Logistic Regression 2. Support Vector Machine 3. Random Forest 4. Naïve Bayes Classification 5. Decision Tree 1. Logistic Regression Iris 를 불러와서 x,y 값을 정의해주고 train / test분리하는 이 '더보기'부분은 5가지 모델 작성 방법 모두 동일하다. 더보기 import pandas as pd import numpy as np from sklearn import datasets from sklearn.metrics import accuracy_score from sklearn.linear_model import LogisticRegression from skl.. 2021. 3. 18.
머신러닝 / 선형회귀분석 / 모델 작성후 추정치 얻기 선형회귀분석 목표 : mtcars dataset으로 모델 작성후 변수 간의 상관관계 알아보고, 단순 선형회귀와 다중 선형회귀를 통해 각각의 추정치 얻기 (지도학습, 귀납적추론을 이용) 파일명 : linear_regression6.py import statsmodels.api import statsmodels.formula.api as smf import matplotlib.pyplot as plt import numpy as np plt.rc('font', family='malgun gothic') # 한글깨짐 방지 mtcars = statsmodels.api.datasets.get_rdataset('mtcars').data # dataframe 으로 불러오기 print(mtcars) print(mtca.. 2021. 3. 11.
머신러닝 / Python / Pandas 판다스 / MariaDB 연결 Python - MariaDB 연결 목표 : 원격 DB연결 후 DataFrame에 저장 파일명 : db_remote.py import MySQLdb import pandas as pd import numpy as np import matplotlib.pyplot as plt import csv import ast import sys plt.rc('font', family='malgun gothic') # 한글자료를 받아오기 위해 폰트입력 try : with open('mariadb.txt','r') as f: config = f.read() except Exception as e: print('read err : ',e) sys.exit() config = ast.literal_eval(config) #.. 2021. 3. 11.
머신러닝 / Python / ANOVA(analysis of variance) / 분산분석 ANOVA(analysis of variance) 분산분석 : 두 개 이상 집단들의 평균을 비교하는 통계분석 기법 분산분석은 회귀분석의 한 형태로, 두 개 이상 집단들의 평균 간 차이에 대한 통계적 유의성을 검증하는 방법이다. - T 검정과의 차이점 T-test 와 ANOVA 둘다 집단 간의 평균을 비교한다는 공통점이 있지만, 세 집단 이상일 경우 t-검정을 사용한다면 1종 오류(Type I error)의 증가때문에 문제가 발생할 수 있다. T-test는 독립변수가 1개, 종속변수가 1개이며 그 중 독립변수의 수준이 2개일 경우 적합하다. 예를 들어, 독립변수 성별 => 여자,남자면 수준 2개 ANOVA는 독립변수의 수준이 3개 이상일 때 적합하다. 1. 일원배치 분산분석 (one-way ANOVA) o.. 2021. 3. 11.
머신러닝 / 웹크롤링 / 형태소분석 / WordCloud 차트 출력하기 웹 자료를 읽어서 형태소 분석하기 목표: 웹 검색 결과에서 두글자 이상의 명사의 빈도수를 가지고 WordCloud 차트를 출력한다 파일명 : 2_nlp5_wordcloudchart.py # 검색 결과를 형태소 분석하여 단어 빈도수를 구하고 이를 기초로 워드클라우드 차트 출력 from bs4 import BeautifulSoup import urllib.request from urllib.parse import quote #keyword = input("검색어 : ") keyword = "백신" print(quote(keyword)) # 동아일보 검색 기능 target_url = "https://www.donga.com/news/search?query=" + quote(keyword) print(targe.. 2021. 3. 10.
728x90