Usando Boilerpipe para extraer información de un HTML con Python

January 25, 2017

Usando Boilerpipe para extraer información de un HTML con Python

Primero nos aseguramos que tenemos Java instalados Podemos descargar desde el sitio oficial o usarl openjdk en ubuntu 14.04

sudo apt-get install openjdk-7-jdk

En ubuntu 16.04

sudo apt-get install openjdk-8-jdk

Nos aseguramos que JAVA_HOME esté definida.

En OSX

export JAVA_HOME=$(/usr/libexec/java_home -v 1.8)

en Ubuntu 14.04

export JAVA_HOME=”/usr/lib/jvm/java-7-openjdk-amd64/”

en Ubuntu 16.04

export JAVA_HOME="/usr/lib/jvm/java-8-openjdk-amd64/"

Si estamos tabajando en un ambiente vitual, es útil colocarlo en ${VIRTUALENV_PATH}/bin/postactivate o dejarlo para toda la sesión en ~/.profile o ~/.bashrc

Instalamos las dependencias

pip install jpype1
pip install chardet

Descargamos el binding de boilerpipe para python y lo instalamos

git clone https://github.com/misja/python-boilerpipe
cd python-boilerpipe
python setup.py install

Y luego probamos el funcionamiento con

from boilerpipe.extract import Extractor
extractor = Extractor(extractor='ArticleExtractor', url='http://neuro.imm.dtu.dk/wiki/Boilerpipe')
extracted_text = extractor.getText()