Skip to content

Latest commit

 

History

History
60 lines (38 loc) · 3.92 KB

04.md

File metadata and controls

60 lines (38 loc) · 3.92 KB

Na tento týžden sme vybrali sadu úloh na rôznych datasetoch týkajúcu sa predspracovania údajov a zmien tvaru datasetu. Riešte postupne úlohy z tohto zoznamu. Ako pomôcku pri riešení používajte tutoriály na konci.

Zadania úloh:

Opakovanie Pandas

Načítajte tento dataset a napíšte kód na zodpovedanie nasledujúcich otázok.

  1. Získajte deskriptívne štatistiky o datasete.
  2. Koľko riadkov má cenu vyššiu ako $8,000?
  3. Koľko riadkov má status "pending" a cenu vyšiu ako $8,000?
  4. Koľko riadkov má status "pending" alebo cenu vyšiu ako $8,000?
  5. Vytvorte stĺpec s názvom "amount", ktorý bude tvorený násobkom stĺpcpv "price" a "quantity". Aký je súčet hodnôt v tomto stĺpci pre riadky so statusom "won"?
  6. Aký je celkový súčet stĺpcu "amount" pre záznamy produktov z kategórie "CPU"?

Zmena tvaru tabuliek

Pivot table

  1. Pozrite si príklady na používanie operácií stack, unstack a pivot v pripojených tutoriáloch.
  2. Aký je rozdiel medzi funkciami "pivot" a "pivot_table"?
  3. V dátovej sade z predchádzajúcich úloh vytvorte tabuľku, kde v riadkoch budú záznamy pre rôzne produkty, v stĺpcoch záznamy pre rôzne statusy a hodnoty budú agregované hodnoty zo stĺpcu "amount". Na agregáciu použite funkciu sum z balíčka numpy.

Groupby

  1. Spravte úlohu 3 zo sekcie pre Pivot table pomocou operácie groupby. Pomôcka: budete potrebovať zoskupiť podľa dvoch atribútov a použiť operáciu unstack na finálnu transformáciu hodnôt stĺpca na nové názvy stĺpcov.

Cross tab

  1. Vytvorte kontingenčnú tabuľku (crosstab), ktorá ukáže koľko záznamov je v jednotlivých stavoch (status) pre jednotlivé produkty
  2. Vytvorte tabuľku z prvej úlohy, ale nahraďte produkty za Manažérov alebo Rep alebo dvojice Manažér a Rep. Vzniknú vám teda 3 rôzne tabuľky.

Iný dataset

Napíšte kód zísavajúci odpovede na nasledujúce otázky o tomto datasete

  1. Načítajte dataset. Pri volaní funkcie read_csv použite kódovanie "latin1".
  2. Získajte deskriptívne štatistiky o datasete. O aký dataset ide?
  3. Aký je maximálny získaný funding? Pomôcka: budete musieť transformovať a upraviť hodnoty. Poriadne sa pozrite na dátový typ v stĺpci a na názov stĺpca.
  4. Premenujte stĺpce tak aby boli zrozumiteľné a správne formátované.
  5. Vytvorte tabuľku hodnôt zo stĺpcu "Market" a súčtu hodnôt total funding pre záznamy s danou hodnotou v stĺpci "Market". Usporiadajte tieto hodnoty od najväčšej po menjmenšiu a zobrazte prvých 10 z nich.
  6. Koľko spoločností obsahuje kategóriu "Game"?
  7. Aký je priemerný total funding pre spoločnosti z New Yorku? Ako je to pre spoločnosti zo San Francisca? Porovnajte tieto hodnoty.

inšpirované https://github.com/suneel0101/data-science-bootcamp-part-two/blob/master/day_3.md

Online tutoriály na prepájanie datasetov a na manipuláciu s dátami:

  1. Tutorial na používanie funkcií stack, unstack, pivot ... https://nikgrozev.com/2015/07/01/reshaping-in-pandas-pivot-pivot-table-stack-and-unstack-explained-with-pictures/

  2. Funkcie v knižnici Pandas na zmenu tvaru tabuliek údajov (stack, unstack, melt, pivot) https://www.ibm.com/developerworks/community/blogs/jfp/entry/Tidy_Data_In_Python?lang=en

  3. Data Wranging with Pandas (práca s časovými pečiatkami, merge, concat, stack, unstack, pivot, drop_duplicates ...) http://my-classes.com/lesson/data-wrangling-with-pandas/