Webサイトの本文抽出にはpython-gooseがお手軽

本文抽出のパッケージの中では比較的手軽に使えそうな“python-goose”を試してみました。

インストールは以下の手順でＯＫでした。

git clone https://github.com/grangier/python-goose.git
cd python-goose
pip install -r requirements.txt
python setup.py install

上記手順の3行目“pip install -r requirements.txt”で以下の依存パッケージがインストールされます。

依存パッケージは以下のとおりです。

Pillow
lxml
cssselect
jieba
beautifulsoup
nltk

使ってみた感想としては、インストール含め非常にお手軽だと感じました。

学習も不要なのがよいです。

本文抽出の結果もまずまず？ではないでしょうか。

精度については、これから使い込んで評価していきたいと思います。

オープンデータとプログラミング