Generación de una base de documentos a partir de los archivos html de ediciones del diario La Tercera (base de texto html). Debe ser desarrollado principalmente en Perl. El programa abre todos los archivos html y genera un registro por cada documento encontrado. Los documentos están organizados en directorios por año, mes y día. Dentro de cada día hay varios documentos. Esto define la estructura de la base de texto que se debe generar. Un ejemplo es el siguiente:Todas las ediciones anuales deben quedar dentro de un mismo archivo llamado "base_texto.txt". Por supuesto todos los tags html del documento original y el texto dentro de los tags deben ser filtrados. También los acentos en formato html deben ser reemplazados por las letras correspondientes en ascii (dejen el texto sin acentos), etc.., en general deben intentar dejar la base de documentos de la manera más "limpia" posible y que el texto sea coherente. Dejar unas 12 palabras por cada línea de texto. En momentos en que la presidenta del Consejo de Defensa del Estado (CDE), Clara Szczaranski, y el ministro de la Corte Suprema Luis Correa Bulo atraviesan por momentos difíciles, quizá los más complicados que ambos hayan enfrentado hasta ahora, comienzan a aparecer algunos antecedentes inéditos que los relacionan a ambos y que están en conocimiento de la Corte Suprema. Entre los momentos más tensos en la vida estudiantil de los jóvenes chilenos se cuenta la rendición de la Prueba de Aptitud Académica (PAA), las pruebas de fin de año y los exámenes de fin de semestre en la universidad. Como si se tratara de una verdadera maratón del conocimiento, las más diversas técnicas se deben poner en práctica para alcanzar un desempeño óptimo, que se traduzca en una buena nota o la garantía de entrar a la universidad a estudiar la carrera anhelada. Sin embargo, si no se cuenta con una buena orientación, puede ocurrir que aquella estrategia que le sirve a un estudiante no de los mismos resultados para otro. Por ello, expertos chilenos recomiendan, paso a paso, cuál es el mejor camino para llegar a la enseñanza superior. Para esto deben seguir los siguientes pasos,
La evaluación de este punto consistirá en tomar el archivo "diccionario.txt" generado por ustedes y generar con el código escrito por ustedes el archivo "base_texto.txt" para analizar la calidad del texto generado.
- Recorrer toda la base de texto para generar un archivo con todas las palabras del texto en orden lexicográfico ascendente.
- A partir de este archivo generar un segundo archivo que contenga las palabras que no fueron encontradas en un diccionario Español estándar.
- Eliminar manualmente las palabras del segundo archivo que no tengan sentido.
- Formar el diccionario de palabras total con la unión del primer y segundo archivo. LLamen a este archivo "dicionario.txt".
- Utilizar este diccionario para recorrer nuevamente la base de texto y formar la nueva base de texto formateada con los tags correspondientes.