Usando Boilerpipe para extraer información de un HTML con Python
January 25, 2017
Usando Boilerpipe para extraer información de un HTML con Python
Primero nos aseguramos que tenemos Java instalados Podemos descargar desde el sitio oficial o usarl openjdk en ubuntu 14.04
sudo apt-get install openjdk-7-jdkEn ubuntu 16.04
sudo apt-get install openjdk-8-jdkNos aseguramos que JAVA_HOME esté definida.
En OSX
export JAVA_HOME=$(/usr/libexec/java_home -v 1.8)en Ubuntu 14.04
export JAVA_HOME=”/usr/lib/jvm/java-7-openjdk-amd64/”en Ubuntu 16.04
export JAVA_HOME="/usr/lib/jvm/java-8-openjdk-amd64/"Si estamos tabajando en un ambiente vitual, es útil colocarlo en
${VIRTUALENV_PATH}/bin/postactivate o dejarlo para toda la sesión en ~/.profile o ~/.bashrc
Instalamos las dependencias
pip install jpype1
pip install chardetDescargamos el binding de boilerpipe para python y lo instalamos
git clone https://github.com/misja/python-boilerpipe
cd python-boilerpipe
python setup.py installY luego probamos el funcionamiento con
from boilerpipe.extract import Extractor
extractor = Extractor(extractor='ArticleExtractor', url='http://neuro.imm.dtu.dk/wiki/Boilerpipe')
extracted_text = extractor.getText()