Skip to content

Data-Competition/Super-Mario

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

83 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Super Mario

  • 데이터 출 처 : Kaggle Dataset https://www.kaggle.com/uciml/mushroom-classification
  • 북아메리카 버섯에 대한 필드 안내서 (Audubon Society Field Guide from North American Mushrooms) (1981)에서 추출한 아가리쿠스 (Agaricus)와 레 피오 타 (Lepiota) 가족 버섯에 해당하는 가설 적 시료에 대한 설명이 포함되어 있습니다.
  • 버섯 23 종의 데이터

변수 이름과 설명

이름 설명 변수
class 식용 버섯과 독 버섯 p=poison, e=edible
cap-shape 갓 형태 bell=b, conical=c, convex=x, flat=f, knobbed=k, sunken=s
cap-surface 갓의 표면 fibrous=f, grooves=g, scaly=y, smooth=s
cap-color 갓의 색깔 brown=n, buff=b, cinnamon=c ,gray=g, green=r, pink=p, purple=u, red=e, white=w, yellow=y
bruises 멍 유무 bruises=t, no=f
odor 냄새 almond=a, anise=l, creosote=c, fishy=y, foul=f, musty=m, none=n, pungent=p, spicy=s
gill-attachment 주름살 attached=a, descending=d, free=f, notched=n
gill-spacing 주름살 간격 close=c, crowded=w, distant=d
gill-size 주를살 크기 broad=b, narrow=n
gill-color 주름살 색 black=k, brown=n, buff=b, chocolate=h, gray=g, green=r, orange=o, pink=p, purple=u, red=e, white=w, yellow=y
stalk-shape 줄기 모양 enlarging=e, tapering=t
stalk-root 줄기 뿌리 bulbous=b, club=c, cup=u, equal=e, rhizomorphs=z, rooted=r, missing=?
stalk-surface-above-ring 턱받이 위쪽 줄기 모양 fibrous=f, scaly=y, silky=k, smooth=s
stalk-surface-below-ring 턱받이 아래쪽 줄기 모양 fibrous=f, scaly=y, silky=k, smooth=s
stalk-color-above-ring 갓 위쪽의 줄기 색깔 brown=n, buff=b, cinnamon=c, gray=g, orange=o, pink=p ,red= , white=w, yellow=y
stalk-color-below-ring 갓 아래의 줄기 색깔 brown=n, buff=b, cinnamon=c, gray=g, orange=o, pink=p, red=e, white=w, yellow=y
veil-type 베일 유형 partial=p, universal=u
veil-color 베일 색깔 brown=n, orange=o, white=w, yellow=y
ring-number 턱받이 갯수 ring-number: none=n, one=o, two=t
ring-type 턱받이 유형 cobwebby=c, evanescent=e, flaring=f, large=l, none=n, pendant=p, sheathing=s, zone=z
spore-print-color 포자 색깔 black=k, brown=n, buff=b, chocolate=h, green=r, orange=o, purple=u, white=w, yellow=y
population 서식 분포 유형 abundant=a, clustered=c, numerous=n, scattered=s, several=v, solitary=y
habitat 서식지 grasses=g, leaves=l, meadows=m, paths=p, urban=u, waste=w, woods=d
  • 주름살 (gill) : 생식세포인 홀씨를 생성하는 버섯의 한 부분. 갓의 아랫면에 있다.

  • 대주머니 / 균포 (volva): 미성숙한 버섯을 완전히 감싸고 있던 막이 줄기가 생장함에 따라 찢어진 흔적.

  • 균사 / 팡이실 (hypha): 간혹 흰색을 띠는 미세한 사상체. 버섯의 생장에 필요한 물과 유기물질을 흡수한다.

  • 균사체 (mycelium): 홀씨의 발아를 통해 생성된 균사가 서로 얽힌 집합체. 여기에서 버섯의 지상 부분이 발달한다.

  • 홀씨 / 포자 (spores): 일반적으로 대기로 방출된 뒤 기질에 떨어져서 새로운 버섯이 생겨나게 하는 미세한 생식세포.

  • 줄기 (stem): 버섯의 갓을 지지하는 기둥.

  • 턱받이 (ring): 갓의 아래에서 줄기를 둘러싼 막. 미성숙한 버섯의 주름살을 감싸고 있다가 갓이 성장하면서 파열된 막의 흔적이다.

  • 갓 (cap): 형태와 색상이 다양한 버섯의 상단부. 주름살을 보호한다. 대개 머리에 쓰는 모자를 닮은 형태를 띠는 데서 그 이름이 비롯되었다.

사용법

Dependency Install

$ python3 -m pip install -r requirements.txt

데이터 분석 및 설명

Stack View를 이용한 데이터 시각화

char-test-v2.ipynb

  • Stack View 를 이용하여 독버섯과 식용버섯의 특성마다의 분포를 알 수 있었습니다.

box-plot, PCA, t-SNE 방법을 통한 데이터 시각화

mushroom-report-v1.ipynb

  • PCA, t-SNE를 이용하여 데이터 분포의 차원을 줄여, 분포의 한 눈에 확인 할 수 있도록 했습니다.
PCA 2차원 PCA 1차원
2diPCA 1diPCA
scree plot (random mapping) scree plot (one-hot data)
2diPCA 1diPCA
t-SNE (random mapping) t-SNE (one-hot data)
t-SNE t-SNE-one-hot

Decision Tree를 이용한 모델, 특성 중요도

decision_tree_limit_dept.ipynb

  • 버섯의 특성을 이용하여 Decision Tree를 구성해보고, Stack View에서 확인한 특성의 중요도를 나누어 보았습니다.
decision tree 특성 중요도
decision tree important

Releases

No releases published

Packages

No packages published