Na tento týžden sme vybrali sadu úloh na rôznych datasetoch týkajúcu sa predspracovania údajov a zmien tvaru datasetu. Riešte postupne úlohy z tohto zoznamu. Ako pomôcku pri riešení používajte tutoriály na konci.
Načítajte tento dataset a napíšte kód na zodpovedanie nasledujúcich otázok.
- Získajte deskriptívne štatistiky o datasete.
- Koľko riadkov má cenu vyššiu ako $8,000?
- Koľko riadkov má status "pending" a cenu vyšiu ako $8,000?
- Koľko riadkov má status "pending" alebo cenu vyšiu ako $8,000?
- Vytvorte stĺpec s názvom "amount", ktorý bude tvorený násobkom stĺpcpv "price" a "quantity". Aký je súčet hodnôt v tomto stĺpci pre riadky so statusom "won"?
- Aký je celkový súčet stĺpcu "amount" pre záznamy produktov z kategórie "CPU"?
- Pozrite si príklady na používanie operácií stack, unstack a pivot v pripojených tutoriáloch.
- Aký je rozdiel medzi funkciami "pivot" a "pivot_table"?
- V dátovej sade z predchádzajúcich úloh vytvorte tabuľku, kde v riadkoch budú záznamy pre rôzne produkty, v stĺpcoch záznamy pre rôzne statusy a hodnoty budú agregované hodnoty zo stĺpcu "amount". Na agregáciu použite funkciu sum z balíčka numpy.
- Spravte úlohu 3 zo sekcie pre Pivot table pomocou operácie groupby. Pomôcka: budete potrebovať zoskupiť podľa dvoch atribútov a použiť operáciu unstack na finálnu transformáciu hodnôt stĺpca na nové názvy stĺpcov.
- Vytvorte kontingenčnú tabuľku (crosstab), ktorá ukáže koľko záznamov je v jednotlivých stavoch (status) pre jednotlivé produkty
- Vytvorte tabuľku z prvej úlohy, ale nahraďte produkty za Manažérov alebo Rep alebo dvojice Manažér a Rep. Vzniknú vám teda 3 rôzne tabuľky.
Napíšte kód zísavajúci odpovede na nasledujúce otázky o tomto datasete
- Načítajte dataset. Pri volaní funkcie read_csv použite kódovanie "latin1".
- Získajte deskriptívne štatistiky o datasete. O aký dataset ide?
- Aký je maximálny získaný funding? Pomôcka: budete musieť transformovať a upraviť hodnoty. Poriadne sa pozrite na dátový typ v stĺpci a na názov stĺpca.
- Premenujte stĺpce tak aby boli zrozumiteľné a správne formátované.
- Vytvorte tabuľku hodnôt zo stĺpcu "Market" a súčtu hodnôt total funding pre záznamy s danou hodnotou v stĺpci "Market". Usporiadajte tieto hodnoty od najväčšej po menjmenšiu a zobrazte prvých 10 z nich.
- Koľko spoločností obsahuje kategóriu "Game"?
- Aký je priemerný total funding pre spoločnosti z New Yorku? Ako je to pre spoločnosti zo San Francisca? Porovnajte tieto hodnoty.
inšpirované https://github.com/suneel0101/data-science-bootcamp-part-two/blob/master/day_3.md
-
Tutorial na používanie funkcií stack, unstack, pivot ... https://nikgrozev.com/2015/07/01/reshaping-in-pandas-pivot-pivot-table-stack-and-unstack-explained-with-pictures/
-
Funkcie v knižnici Pandas na zmenu tvaru tabuliek údajov (stack, unstack, melt, pivot) https://www.ibm.com/developerworks/community/blogs/jfp/entry/Tidy_Data_In_Python?lang=en
-
Data Wranging with Pandas (práca s časovými pečiatkami, merge, concat, stack, unstack, pivot, drop_duplicates ...) http://my-classes.com/lesson/data-wrangling-with-pandas/