forked from cezary-rosinski/Institute-of-Literary-Research
-
Notifications
You must be signed in to change notification settings - Fork 0
/
nowy_korbut.Rmd
89 lines (71 loc) · 3.81 KB
/
nowy_korbut.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
---
title: "R Notebook"
output: html_notebook
---
```{r}
options(java.parameters = "-Xmx32000m")
options(scipen = 999)
pacman::p_load(googlesheets,zoo,openxlsx,stringr,splitstackshape,plyr,dplyr,sqldf,stringdist,fuzzyjoin,data.table,svMisc,tidyverse,RJDBC,xlsx,RJSONIO,pdftools,readtext)
#korbut <- readtext("C:\\Users\\cezar\\Desktop\\korbutam.txt",encoding = "UTF-8")
korbut <- readtext("C:\\Users\\Cezary\\Desktop\\korbutam.txt",encoding = "UTF-8")
korbut <- korbut$text %>%
strsplit(split = "\n")
korbut <- as.data.frame(korbut)
colnames(korbut) <- "korbut"
korbut <- data.frame(korbut = korbut$korbut[41:lengths(korbut)])
korbut <- korbut %>%
mutate(korbut = str_replace_all(korbut,"OPRACOWANIA","|OPRACOWANIA"))
korbut <- cSplit(korbut,"korbut",sep = "|",direction = "long") %>%
filter(korbut!="")
test <- korbut %>%
mutate(osoba = ifelse(grepl("^[A-ZAÁÀÂÃÄĂĀÅĄÆEÉÈÊËĚĒĖĘIÍÌÎÏĪĮIOÓÒÔÕÖŐØŒUÚÙÛÜŰŪůYÝCĆČçDĎĐĐGĢĞKĶLŁĻNŃÑŇŅŊRŘSŚŠŞSßTŤŦÞŢ8ZŻŹŽ]{2,} [A-ZAÁÀÂÃÄĂĀÅĄÆEÉÈÊËĚĒĖĘIÍÌÎÏĪĮIOÓÒÔÕÖŐØŒUÚÙÛÜŰŪůYÝCĆČçDĎĐĐGĢĞKĶLŁĻNŃÑŇŅŊRŘSŚŠŞSßTŤŦÞŢ8ZŻŹŽ]{2,}",korbut),as.character(korbut),NA)) %>%
mutate(czy = grepl("http://rcin.org.pl|rcin.org.pl",korbut)) %>%
mutate(test = lag(czy,1))
test$test[1] <- FALSE
test <- test %>%
filter(!(czy==TRUE|test==TRUE)) %>%
select(1:2) %>%
fill(osoba)
test %$%
{ osoba == dplyr::lag(osoba, 1)} %>%
as.numeric() %>%
{.} -> test$same
test$same[1] <- 0
test <- test %>%
mutate(grupa = ifelse(same==0,row(test),NA)) %>%
fill(grupa) %>%
select(-same)
test <- test %>%
mutate(sekcja = ifelse(korbut=="TWÓRCZOŚĆ","Twórczość",ifelse(korbut=="Prace edytorskie", "Prace edytorskie", ifelse(korbut=="Listy", "Listy",ifelse(korbut=="OPRACOWANIA", "Opracowania", ifelse(korbut=="Listy i materiały", "Listy i materiały", ifelse(korbut=="Przekłady", "Przekłady", ifelse(korbut=="Utwór o autorstwie niepewnym", "Utwór o autorstwie niepewnym", ifelse(korbut=="Wydanie zbiorowe", "Wydanie zbiorowe", ifelse(korbut=="Utwory o autorstwie niepewnym", "Utwory o autorstwie niepewnym", ifelse(korbut=="Materiały", "Materiały", ifelse(korbut=="Wydania zbiorowe", "Wydania zbiorowe", ifelse(korbut=="Prace kolekcjonerskie", "Prace kolekcjonerskie", ifelse(korbut=="Utwór mylnie przypisany","Utwory mylnie przypisane", ifelse(korbut=="Wiadomości o rękopisach podają", "Wiadomości o rękopisach podają",NA)))))))))))))))
test <- test %>%
group_by(osoba) %>%
fill(sekcja) %>%
ungroup() %>%
arrange(grupa)
bio_na_pozniej <- test %>%
filter(is.na(sekcja))
test <- test %>%
filter(!is.na(sekcja))
test %$%
{ sekcja == dplyr::lag(sekcja, 1)} %>%
as.numeric() %>%
{.} -> test$same
test$same[1] <- 0
test <- test %>%
filter(same==1) %>%
select(-same)
test <- test %>%
mutate(dummy_column = paste(osoba,sekcja,sep = "|")) %>%
group_by(dummy_column) %>%
mutate(korbut = paste(korbut,collapse = "#")) %>%
ungroup() %>%
unique() %>%
select(-dummy_column) %>%
mutate(korbut = str_replace_all(korbut,"([a-zaáàâãäăāåąæeéèêëěēėęiíìîïīįioóòôõöőøœuúùûüűūůyýcćčçdďđđgģğkķlłļnńñňņŋrřsśšşsßtťŧþţ8zżźž0-9][a-zaáàâãäăāåąæeéèêëěēėęiíìîïīįioóòôõöőøœuúùûüűūůyýcćčçdďđđgģğkķlłļnńñňņŋrřsśšşsßtťŧþţ8zżźž0-9\\)]\\.)(#)(\\d{1,2}\\.)","\\1|\\3")) %>%
mutate(korbut = str_replace_all(korbut, "#"," ")) %>%
mutate(korbut = str_replace_all(korbut,"(\\.)([- ]{0,2})(—)", "\\1\\2|"))
test2 <- cSplit(test,"korbut",sep = "|",direction = "long")
test2 <- test2 %>%
mutate(korbut = str_remove(korbut,"^- | -$"))
write.csv2(test2, "C:/Users/cezar/Desktop/korbut_nikodema.csv", row.names = F, na = '', fileEncoding = 'UTF-8')
```