Skip to content

Latest commit

 

History

History
28 lines (25 loc) · 2.46 KB

FAQ.md

File metadata and controls

28 lines (25 loc) · 2.46 KB

FAQ

1. По какой выборке рассчитывается частота токенов при построении словаря токенов и матрицы термин-документ в пункте 1? И словарь, и матрица составляются по обучающей выборке, встречаемость токенов тоже считается по обучающей выборке.
2. Что понимается под матрицей термин-документ в пункте 1? Матрица термин-документ - матрица, каждой строке которой соответствует документ обучающей выборки, каждому столбцу - токен словаря (или наоборот).
3. Для чего при выполнении пункта 2 предлагается построить матрицу частот и значений `tf-idf`, в которой каждой строке соответствует отдельное предложение исходного текста, а каждому столбцу - токен словаря? Данная матрица строится для того, чтобы потом из нее получить векторное представление текста путем объединения векторных представлений отдельных предложений. Идея в том, чтобы разбить наборы значений частот и коэффициентов tf-idf на несколько векторов, соответствующих отдельным предложениям, а не хранить их в одном векторе, который соответствует всему исходному тексту.
4. При выполнении пункта 2 нужно ли строить отдельный словарь с частотами токенов для исходного текста? Для входного текста не обязательно строить отдельный словарь, необходимо использовать словарь, построенный при выполнении пункта 1 по всей обучающей выборке.