Na tento týžden sme vybrali sadu úloh na rôznych datasetoch týkajúcu sa predspracovania údajov a zmien tvaru datasetu. Riešte postupne úlohy z tohto zoznamu. Ako pomôcku pri riešení používajte tutoriály na konci.

Zadania úloh:

Opakovanie Pandas

Načítajte tento dataset a napíšte kód na zodpovedanie nasledujúcich otázok.

Získajte deskriptívne štatistiky o datasete.
Koľko riadkov má cenu vyššiu ako $8,000?
Koľko riadkov má status "pending" a cenu vyšiu ako $8,000?
Koľko riadkov má status "pending" alebo cenu vyšiu ako $8,000?
Vytvorte stĺpec s názvom "amount", ktorý bude tvorený násobkom stĺpcpv "price" a "quantity". Aký je súčet hodnôt v tomto stĺpci pre riadky so statusom "won"?
Aký je celkový súčet stĺpcu "amount" pre záznamy produktov z kategórie "CPU"?

Zmena tvaru tabuliek

Pivot table

Pozrite si príklady na používanie operácií stack, unstack a pivot v pripojených tutoriáloch.
Aký je rozdiel medzi funkciami "pivot" a "pivot_table"?
V dátovej sade z predchádzajúcich úloh vytvorte tabuľku, kde v riadkoch budú záznamy pre rôzne produkty, v stĺpcoch záznamy pre rôzne statusy a hodnoty budú agregované hodnoty zo stĺpcu "amount". Na agregáciu použite funkciu sum z balíčka numpy.

Groupby

Spravte úlohu 3 zo sekcie pre Pivot table pomocou operácie groupby. Pomôcka: budete potrebovať zoskupiť podľa dvoch atribútov a použiť operáciu unstack na finálnu transformáciu hodnôt stĺpca na nové názvy stĺpcov.

Cross tab

Vytvorte kontingenčnú tabuľku (crosstab), ktorá ukáže koľko záznamov je v jednotlivých stavoch (status) pre jednotlivé produkty
Vytvorte tabuľku z prvej úlohy, ale nahraďte produkty za Manažérov alebo Rep alebo dvojice Manažér a Rep. Vzniknú vám teda 3 rôzne tabuľky.

Iný dataset

Napíšte kód zísavajúci odpovede na nasledujúce otázky o tomto datasete

Načítajte dataset. Pri volaní funkcie read_csv použite kódovanie "latin1".
Získajte deskriptívne štatistiky o datasete. O aký dataset ide?
Aký je maximálny získaný funding? Pomôcka: budete musieť transformovať a upraviť hodnoty. Poriadne sa pozrite na dátový typ v stĺpci a na názov stĺpca.
Premenujte stĺpce tak aby boli zrozumiteľné a správne formátované.
Vytvorte tabuľku hodnôt zo stĺpcu "Market" a súčtu hodnôt total funding pre záznamy s danou hodnotou v stĺpci "Market". Usporiadajte tieto hodnoty od najväčšej po menjmenšiu a zobrazte prvých 10 z nich.
Koľko spoločností obsahuje kategóriu "Game"?
Aký je priemerný total funding pre spoločnosti z New Yorku? Ako je to pre spoločnosti zo San Francisca? Porovnajte tieto hodnoty.

inšpirované https://github.com/suneel0101/data-science-bootcamp-part-two/blob/master/day_3.md

Online tutoriály na prepájanie datasetov a na manipuláciu s dátami:

Tutorial na používanie funkcií stack, unstack, pivot ... https://nikgrozev.com/2015/07/01/reshaping-in-pandas-pivot-pivot-table-stack-and-unstack-explained-with-pictures/
Funkcie v knižnici Pandas na zmenu tvaru tabuliek údajov (stack, unstack, melt, pivot) https://www.ibm.com/developerworks/community/blogs/jfp/entry/Tidy_Data_In_Python?lang=en
Data Wranging with Pandas (práca s časovými pečiatkami, merge, concat, stack, unstack, pivot, drop_duplicates ...) http://my-classes.com/lesson/data-wrangling-with-pandas/

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

04.md

04.md

Zadania úloh:

Opakovanie Pandas

Zmena tvaru tabuliek

Pivot table

Groupby

Cross tab

Iný dataset

Online tutoriály na prepájanie datasetov a na manipuláciu s dátami:

Files

04.md

Latest commit

History

04.md

File metadata and controls

Zadania úloh:

Opakovanie Pandas

Zmena tvaru tabuliek

Pivot table

Groupby

Cross tab

Iný dataset

Online tutoriály na prepájanie datasetov a na manipuláciu s dátami: