-
Notifications
You must be signed in to change notification settings - Fork 19
/
b-1-3-testegitimbolme.py
106 lines (79 loc) · 2.83 KB
/
b-1-3-testegitimbolme.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Thu Mar 15 04:18:20 2018
@author: regkr
"""
#kutuphaneler
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
#kodlar
#veri yukleme
veriler = pd.read_csv('datasets/eksikveriler.csv', na_values="NaN")
#pd.read_csv("veriler.csv")
print(veriler)
#veri on isleme
boy = veriler[['boy']]
print(boy)
boykilo = veriler[['boy','kilo']]
print(boykilo)
x = 10
class insan:
boy = 180
def kosmak(self,b):
return b + 10
ali = insan()
print(ali.boy)
print(ali.kosmak(90))
#eksik veriler
#sci - kit learn
from sklearn.impute import SimpleImputer
imputer= SimpleImputer(strategy = 'mean')
Yas = veriler.iloc[:,1:4].values
print(Yas)
Yas[:,1:4] = imputer.fit_transform(Yas[:,1:4])
print(Yas)
ulke = veriler.iloc[:,0:1].values
print(ulke)
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
ulke[:,0] = le.fit_transform(ulke[:,0])
print(ulke)
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder()
ulke=ohe.fit_transform(ulke).toarray()
print(ulke)
print(list(range(22)))
sonuc = pd.DataFrame(data = ulke, index = range(22), columns=['fr','tr','us'] )
print(sonuc)
sonuc2 =pd.DataFrame(data = Yas, index = range(22), columns = ['boy','kilo','yas'])
print(sonuc2)
cinsiyet = veriler.iloc[:,-1].values
print(cinsiyet)
sonuc3 = pd.DataFrame(data = cinsiyet , index=range(22), columns=['cinsiyet'])
print(sonuc3)
s=pd.concat([sonuc,sonuc2],axis=1)
print(s)
s2= pd.concat([s,sonuc3],axis=1)
print(s2)
#veri bölmek için gerekli kütüphane(farklı bölme yöntemleri de var)
from sklearn.model_selection import train_test_split
#ülke, boy, kilo ve yaş bilgilerini kullanrak cinsiyeti bulacaz.
#dolayısıyla bağımlı ve bağımsız değişkenler var.
#bu yüzden bulmak istediğimiz kolonla elimizdeki verileri ayrı ayrı ele alacaz.
x_train, x_test,y_train,y_test = train_test_split(s,sonuc3,test_size=0.33, random_state=0)
#x_train, x_test ve y_train,_y test bizim verdiğimiz isimler
#train_tast_split içine sonuc3 ve s i vererek böleceğiz.
#s bizim hazırlayıp son hale getirdiğimiz veri kümesi sonuc3 ise bulmak istediğimiz kolon
#test_size=0.33 verinin %33'ü test için kullanılacak demek
#random state =0 ise bir bölme yöntemi ve rastgele her durumdan örnekler seç demektir.
#random state kullanmazsak fransa alt taraflarda olduğu için fransadan hiç örnek almayabilirdi.
#y bağımlı x bağımsız değişken olarak tanımlandı(değiştirilebilir ismi, sıkıntıu değil.)
from sklearn.preprocessing import StandardScaler
#veriler farklı kümelere ait olduğu için standardize etmemiz lazım.
#standardizasyon ve normalizasyon yöntemlerinden standardizasyon yöntemini
#kullandık, çünkü uç veriler olduğunda daha iyi sonuç veriyor.
sc = StandardScaler()
X_train = sc.fit_transform(x_train)
X_test = sc.fit_transform(x_test)