GitHub - launis/areadata: Programs to estimate elections and clusters based on postcodes in Finland

Suomi on jakautunut erilaisiin alueisiin.

Datan avulla ohjaamattoman oppimisen kautta on mahdollista löytää erilaisia alueellisia klustereita. Nämä ennusteet perustuvat noin vuoden vanhaan dataan verottajalta sekä alkuvuoden tilanteeseen tilastokeskukselta. Postilta taasen on saatu tarkemmat tiedot postinumeroista. Äänestysdata on vaalidatassa jaoteltu äänestysalueiden mukaan. Äänestysdata on viety postinumeroalueelle kiinteistörekisterin kautta, sillä kiinteistörekisterissä on sekä postinumero että äänestysalue. Tarkempi analyysi postinumeroalueiden polarisaatiosta tulee myöhemmin. Tässä kuitenkin alustavia arvioita Uudeltamaalta. Klusteroinnilla saadaan selville, että ydinkeskusta on oma hyvinvoiva klusterinsa. Keskustaa lähellä on lähiöalueita, laajempia lähialueita ja sen lisäksi maaseutumaista aluettaan.

Postinumeroista saa aika hyvin tietoa mm. tilastokeskukselta. Teknisesti data-analyysi on toteutettu lukemalla rajapintojen kautta tietoja suoraan dataframeille. Tässä ei tallenneta erikseen CSV-tiedostoja, vaan kaikki datat luetaan suoraan lähteiden kautta. Koska tiedostojen lukeminen on aika hidasta, oli pakko toteuttaa tiedostojen väliaikaista kirjoittamista erillisiksi tiedostoiksi. Tämä kokonaisuus toimii myös ilman väliaikaistiedostoja. Kun tiedot on luettu sisään, ne käsitellään ja nolla-arvoille sekä NA arvoille haetaan uusia lukuja tai nämä rivit poistetaan kokonaan. Klusterien hakemiseen tällä kertaa käytettiin yleistä k-means optimoitimenetelmää. Siinä optimoidaan alkioiden keskipisteiden euklidisia etäisyyksiä. Klusterien hyvyyttä on vaikea piirtää auki matriisiin, jos selittävä ominaisuusjoukko on yli kolmen. Kuvaaamista varten pääkomponentti analyysi helpottaa taasen tätä työtä. Tässä yhteydessä kokeiltiin myös erilaisten dimenssioiden vähentäviä työkaluja, kuten Principal feature analysis https://www.hindawi.com/journals/cmmm/2013/645921/ , SequentialFeatureSelector, http://rasbt.github.io/mlxtend/user_guide/feature_selection/SequentialFeatureSelector/ . Samoin Minimum Redundancy Maximum Relevance feature selection toiminnallisuutta kokeiltiin. Useat näistä menetelmistä olivat laskennallisesti hyvin vaativia, joten oma tietokoneeni ei näihin riittänyt. Sinänsä mielestäni dimensioiden ja muuttujien määrän pienentäminen on oleellista ohjaamattomassa oppimisessa. On ehdottoman tärkeä pystyä vähentämää turhan paljon korreloivia muuttujia ja pyrkiä löytämää juuri oikeat muuttujat. Varsinaisessa analyysissa toteutettiin samalle datalle Xboost ohjattu oppiminen eli ennustettiin näitä juuri saatuja klustereita puumallilla. Tämä tehtiin sen takia, että päästii käsiksi selittävään tekoälyyn. Koneoppimisessa haasteena on ollut ja on vieläkin se, että se on vain musta laatikko, joka antaa tiettyjä arvoja. Selittämisessä ei riitä varianssiin perustuvat menetelmät. Tämän johdosta on kehitetty erilaisia malleista riippumattomia selittäviä malleja. Shapely value on mielestäni näistä parhain. Sen kautta voidaan saada jopa yksittäisille riveille selityksiä. Shapley value toteuteaan peliteorioista tutuilla menetelmillä, missä annetaan arvoja muuttujien selittäyydelle. Kaikista osista löytyy funktiot ja aliohjelmat.

Notebook create_clusters.ipynb kokoaa kaiken yhteen.

Name		Name	Last commit message	Last commit date
Latest commit History 51 Commits
.gitattributes		.gitattributes
.gitignore		.gitignore
Akava.ipynb		Akava.ipynb
Covid.ipynb		Covid.ipynb
LICENSE		LICENSE
OrderedSet.py		OrderedSet.py
README.md		README.md
automated_outlier_detection.py		automated_outlier_detection.py
clustering_pre_check.ipynb		clustering_pre_check.ipynb
create_clusters_dbscan.ipynb		create_clusters_dbscan.ipynb
create_clusters_gaussian.ipynb		create_clusters_gaussian.ipynb
create_clusters_kmeans.ipynb		create_clusters_kmeans.ipynb
create_dbscan_clusters.py		create_dbscan_clusters.py
create_mlxtend.py		create_mlxtend.py
create_neuro_prediction.py		create_neuro_prediction.py
create_new_values.py		create_new_values.py
create_political_neuro.ipynb		create_political_neuro.ipynb
create_political_share_xgboost.ipynb		create_political_share_xgboost.ipynb
create_political_voice_xgboost.ipynb		create_political_voice_xgboost.ipynb
create_prediction.py		create_prediction.py
create_shap_values_via_xgboost.py		create_shap_values_via_xgboost.py
create_share_of_values.py		create_share_of_values.py
create_target_columns.py		create_target_columns.py
create_tensorpad_path.py		create_tensorpad_path.py
delete_outliers.py		delete_outliers.py
develop_target_category.py		develop_target_category.py
draw_all.py		draw_all.py
draw_and_create_clusters.py		draw_and_create_clusters.py
gaussian_model.py		gaussian_model.py
get_compiled_model.py		get_compiled_model.py
inpute_null.py		inpute_null.py
kmeans_cluster		kmeans_cluster
kuntavero.py		kuntavero.py
load_thl_data.py		load_thl_data.py
manage_negatives.py		manage_negatives.py
model.json		model.json
mrmr.py		mrmr.py
pfa_fit.py		pfa_fit.py
prepare_and_scale_data.py		prepare_and_scale_data.py
print_examples.py		print_examples.py
read_and_merge_all.py		read_and_merge_all.py
read_and_prepare_data.py		read_and_prepare_data.py
read_kiinteisto.py		read_kiinteisto.py
read_pnrodata.ipynb		read_pnrodata.ipynb
read_post.py		read_post.py
read_post_muncipalities.py		read_post_muncipalities.py
read_prices.py		read_prices.py
read_ravintolat_ja_kaupat.py		read_ravintolat_ja_kaupat.py
read_stats_postcode.py		read_stats_postcode.py
read_vaalit.py		read_vaalit.py
reset_party_number.py		reset_party_number.py
saveloadmodel.py		saveloadmodel.py
select_columns.py		select_columns.py
select_columns_and_clean_data.py		select_columns_and_clean_data.py
select_features.py		select_features.py
selected_cols.py		selected_cols.py
set_path.py		set_path.py
shap_Xboost.py		shap_Xboost.py
shap_proba_individual.py		shap_proba_individual.py
shap_tree.py		shap_tree.py
shap_vals.py		shap_vals.py
show_election_result.py		show_election_result.py
supportfunctions.py		supportfunctions.py
tk-alueet.py		tk-alueet.py
tk-alueet_under_construction.ipynb		tk-alueet_under_construction.ipynb
tkalueet.py		tkalueet.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Releases

Packages

Languages

License

launis/areadata

Folders and files

Latest commit

History

Repository files navigation

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages