Se debe construir un programa llamado indexador que toma en la línea de comando la base de texto (base_texto.txt) y un archivo de "stopwords.txt" que contiene una lista de palabras irrelevantes (e.g., el, la, las, los, ellos, ellas,...etc), y genera el índice invertido para la colección de documentos almacenados en "base_texto.txt".

Utilizar C++, Librería STL y Lex (no se pueden definir estructuras de datos y clases C++, sólo STL).

El índice invertido esta formado por los siguientes archivos:


Ejemplo: <DOCUMENTO 1> <TEXTO> hola mundo mundo chao mundo </TEXTO> </DOCUMENTO> <DOCUMENTO 2> <TEXTO> hola chao hola </TEXTO> </DOCUMENTO> <DOCUMENTO 3> <TEXTO> casa arbol casa </TEXTO> </DOCUMENTO> --------- vocabulario arbol,0,1 casa,1,1 chao,2,2 hola,3,2 mundo,4,1 --------- listas invertidas 0,3,0.500 1,3,1.000 2,1,0.333,2,0.500 3,1,0.333,2,1.000 4,1,1.000 ---------