nowy_korbut.Rmd

---
title: "R Notebook"
output: html_notebook
---

```{r}
options(java.parameters = "-Xmx32000m")
options(scipen = 999)
pacman::p_load(googlesheets,zoo,openxlsx,stringr,splitstackshape,plyr,dplyr,sqldf,stringdist,fuzzyjoin,data.table,svMisc,tidyverse,RJDBC,xlsx,RJSONIO,pdftools,readtext)

#korbut <- readtext("C:\\Users\\cezar\\Desktop\\korbutam.txt",encoding = "UTF-8")
korbut <- readtext("C:\\Users\\Cezary\\Desktop\\korbutam.txt",encoding = "UTF-8")
korbut <- korbut$text %>% 
  strsplit(split = "\n")
korbut <- as.data.frame(korbut)
colnames(korbut) <- "korbut"
korbut <- data.frame(korbut = korbut$korbut[41:lengths(korbut)])
korbut <- korbut %>%
  mutate(korbut = str_replace_all(korbut,"OPRACOWANIA","|OPRACOWANIA"))
korbut <- cSplit(korbut,"korbut",sep = "|",direction = "long") %>%
  filter(korbut!="")

test <- korbut %>%
  mutate(osoba = ifelse(grepl("^[A-ZAÁÀÂÃÄĂĀÅĄÆEÉÈÊËĚĒĖĘIÍÌÎÏĪĮIOÓÒÔÕÖŐØŒUÚÙÛÜŰŪůYÝCĆČçDĎĐĐGĢĞKĶLŁĻNŃÑŇŅŊRŘSŚŠŞSßTŤŦÞŢ8ZŻŹŽ]{2,} [A-ZAÁÀÂÃÄĂĀÅĄÆEÉÈÊËĚĒĖĘIÍÌÎÏĪĮIOÓÒÔÕÖŐØŒUÚÙÛÜŰŪůYÝCĆČçDĎĐĐGĢĞKĶLŁĻNŃÑŇŅŊRŘSŚŠŞSßTŤŦÞŢ8ZŻŹŽ]{2,}",korbut),as.character(korbut),NA)) %>%
  mutate(czy = grepl("http://rcin.org.pl|rcin.org.pl",korbut)) %>%
  mutate(test = lag(czy,1))
test$test[1] <- FALSE
 
test <- test %>%
  filter(!(czy==TRUE|test==TRUE)) %>%
  select(1:2) %>%
  fill(osoba)

test %$%  
    { osoba == dplyr::lag(osoba, 1)} %>% 
    as.numeric() %>% 
    {.} -> test$same
test$same[1] <- 0

test <- test %>%
  mutate(grupa = ifelse(same==0,row(test),NA)) %>%
  fill(grupa) %>%
  select(-same)


test <- test %>%
  mutate(sekcja = ifelse(korbut=="TWÓRCZOŚĆ","Twórczość",ifelse(korbut=="Prace edytorskie", "Prace edytorskie", ifelse(korbut=="Listy", "Listy",ifelse(korbut=="OPRACOWANIA", "Opracowania", ifelse(korbut=="Listy i materiały", "Listy i materiały", ifelse(korbut=="Przekłady", "Przekłady", ifelse(korbut=="Utwór o autorstwie niepewnym", "Utwór o autorstwie niepewnym", ifelse(korbut=="Wydanie zbiorowe", "Wydanie zbiorowe", ifelse(korbut=="Utwory o autorstwie niepewnym", "Utwory o autorstwie niepewnym", ifelse(korbut=="Materiały", "Materiały", ifelse(korbut=="Wydania zbiorowe", "Wydania zbiorowe", ifelse(korbut=="Prace kolekcjonerskie", "Prace kolekcjonerskie", ifelse(korbut=="Utwór mylnie przypisany","Utwory mylnie przypisane", ifelse(korbut=="Wiadomości o rękopisach podają", "Wiadomości o rękopisach podają",NA)))))))))))))))

test <- test %>%
  group_by(osoba) %>%
  fill(sekcja) %>%
  ungroup() %>%
  arrange(grupa)

bio_na_pozniej <- test %>%
  filter(is.na(sekcja))

test <- test %>%
  filter(!is.na(sekcja))

test %$%  
    { sekcja == dplyr::lag(sekcja, 1)} %>% 
    as.numeric() %>% 
    {.} -> test$same
test$same[1] <- 0

test <- test %>%
  filter(same==1) %>%
  select(-same)

test <- test %>%
  mutate(dummy_column = paste(osoba,sekcja,sep = "|")) %>%
  group_by(dummy_column) %>% 
  mutate(korbut = paste(korbut,collapse = "#")) %>%
  ungroup() %>%
  unique() %>%
  select(-dummy_column) %>%
  mutate(korbut = str_replace_all(korbut,"([a-zaáàâãäăāåąæeéèêëěēėęiíìîïīįioóòôõöőøœuúùûüűūůyýcćčçdďđđgģğkķlłļnńñňņŋrřsśšşsßtťŧþţ8zżźž0-9][a-zaáàâãäăāåąæeéèêëěēėęiíìîïīįioóòôõöőøœuúùûüűūůyýcćčçdďđđgģğkķlłļnńñňņŋrřsśšşsßtťŧþţ8zżźž0-9\\)]\\.)(#)(\\d{1,2}\\.)","\\1|\\3")) %>%
  mutate(korbut = str_replace_all(korbut, "#"," ")) %>%
  mutate(korbut = str_replace_all(korbut,"(\\.)([- ]{0,2})(—)", "\\1\\2|"))

test2 <- cSplit(test,"korbut",sep = "|",direction = "long")

test2 <- test2 %>%
  mutate(korbut = str_remove(korbut,"^- | -$"))

write.csv2(test2, "C:/Users/cezar/Desktop/korbut_nikodema.csv", row.names = F, na = '', fileEncoding = 'UTF-8')
```