Skip to content

Latest commit

 

History

History
43 lines (29 loc) · 2.81 KB

README.md

File metadata and controls

43 lines (29 loc) · 2.81 KB

Alt text

English readme is here.

Беларускія цытаты, прыказкі, прымаўкі

Датасэт беларускіх выразаў, сабраны з адкрытых крыніц Інтэрнэта.
Апошняя версія датасэта ляжыць ў фармаце .csv тут.

Датасэт быў сабраны для Notion, каб кожны дзень атрымліваць выпадковую цытату.

Версія для Notion тут:

Static Badge


Крыніцы

Дадзеныя былі сабраныя з:

  1. вэб-старонак:
    1.1. Падборка цытат ад Радыё Свабоды
    1.2. Падборка ад Нацыянальнай бібліятэкі
    1.3. Цытаты з сайта dumki.org

  2. кніг фармата pdf:
    2.1. Беларуская народная творчасць. Прыказкі і прымаўкі. У дзьвюх частках
    2.2. Алесь Зайка. Прыказкі і прымаўкі з Косаўшчыны

Чаму менавіта гэтыя рэсурсы?

Мне хацелася з чагосьці пачаць. Знайшоў пэўную колькасць цытат на сайтах. Але гэта падалося недастатковым, таму вырашыў яшчэ разгледзець кнігі. Абраў першыя, якія пасавалі па зместу. Даставаць нешта з кніг даволі складана, таму пакуль абмежаваўся гэтымі дзвюма.
Складанасці парсінгу і счытвання з pdf можна пабачыць у гэтым ноутбуку.


Статыстыка па датасэту

У датасэце зараз 9655 запісаў.

Змест датасэту па крыніцах: Долі крыніц

Катэгорыі ўнутры крыніц: Катэгорыі ўнутры крыніц