FAQ

1. По какой выборке рассчитывается частота токенов при построении словаря токенов и матрицы термин-документ в пункте 1?

И словарь, и матрица составляются по обучающей выборке, встречаемость токенов тоже считается по обучающей выборке.

2. Что понимается под матрицей термин-документ в пункте 1?

Матрица термин-документ - матрица, каждой строке которой соответствует документ обучающей выборки, каждому столбцу - токен словаря (или наоборот).

3. Для чего при выполнении пункта 2 предлагается построить матрицу частот и значений `tf-idf`, в которой каждой строке соответствует отдельное предложение исходного текста, а каждому столбцу - токен словаря?

Данная матрица строится для того, чтобы потом из нее получить векторное представление текста путем объединения векторных представлений отдельных предложений. Идея в том, чтобы разбить наборы значений частот и коэффициентов tf-idf на несколько векторов, соответствующих отдельным предложениям, а не хранить их в одном векторе, который соответствует всему исходному тексту.

4. При выполнении пункта 2 нужно ли строить отдельный словарь с частотами токенов для исходного текста?

Для входного текста не обязательно строить отдельный словарь, необходимо использовать словарь, построенный при выполнении пункта 1 по всей обучающей выборке.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

FAQ.md

FAQ.md

FAQ

Files

FAQ.md

Latest commit

History

FAQ.md

File metadata and controls

FAQ