El autor del código es Rafael Carrascosa (rafacarrascosa@gmail.com).
La licencia es ninguna, este código es de dominio público.
Fue hecho cómo un ejemplo para la charla sobre NLTK dada junto a Pablo Duboue en PyDay 2011, Córdoba, Argentina.

COMO USARLO
===========

./tops.py reuters.xml

tops.py hace la parte del filtro con un ratio y un descuento de noticias similares.
Las entidades encontradas estan en el archivo .pickle, no se recalculan en tops.py.
La parte que encuentra las enticades esta en ocurrer.py, y se usa así:

./ocurrer.py reuters.xml

Toma ~1:30 hora en calcular las entidades (ojo que ya deberian estar calculadas en el .pickle).

Disclaimer: No hay un archivo reuters.xml distribuido junto al código, hay que conseguir uno para poder usarlo.
