Definição: categorizar docs, podendo ser única categoria ou múltiplas (multirrótulo), utilizando técnicas de Aprendizado de Máquina, um ramo da Inteligência Artificial onde algoritmos aprendem padrões em conj. de dados por meio de treinamentos: assimilação de padrões para predições, os quais podem ser:
Algoritmo de cluster k-médias:
Funcionamento:
Representa o doc $j$ como o vetor $x^{(j)}$.
Seleciona $k$ docs, colocando cada em um agrup. distinto, sendo usados como centroides (centro geográfico do grupo) iniciais para cada um dos agrups. $A_i$.
Atribui cada um dos $N$ docs ao agrup. $i$ do centroide mais próximo.
Recalcula o centroide de cada agrup. $i$ como a média dos vetores atribuídos nele.
$$ C_i=\frac{1}{\left|A_i\right|} \sum_{x^{(j)} \in A_i} x^{(j)} $$
Repete do passo 3 até que os centroides não mudem mais.