You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
1. По какой выборке рассчитывается частота токенов при построении словаря токенов и матрицы термин-документ в пункте 1?
И словарь, и матрица составляются по обучающей выборке, встречаемость токенов тоже считается по обучающей выборке.
2. Что понимается под матрицей термин-документ в пункте 1?
Матрица термин-документ - матрица, каждой строке которой соответствует документ обучающей выборки, каждому столбцу - токен словаря (или наоборот).
3. Для чего при выполнении пункта 2 предлагается построить матрицу частот и значений `tf-idf`, в которой каждой строке соответствует отдельное предложение исходного текста, а каждому столбцу - токен словаря?
Данная матрица строится для того, чтобы потом из нее получить векторное представление текста путем объединения векторных представлений отдельных предложений. Идея в том, чтобы разбить наборы значений частот и коэффициентов tf-idf на несколько векторов, соответствующих отдельным предложениям, а не хранить их в одном векторе, который соответствует всему исходному тексту.
4. При выполнении пункта 2 нужно ли строить отдельный словарь с частотами токенов для исходного текста?
Для входного текста не обязательно строить отдельный словарь, необходимо использовать словарь, построенный при выполнении пункта 1 по всей обучающей выборке.