本文抽出のパッケージの中では比較的手軽に使えそうな“python-goose”を試してみました。
インストールは以下の手順でOKでした。
git clone https://github.com/grangier/python-goose.git cd python-goose pip install -r requirements.txt python setup.py install
上記手順の3行目“pip install -r requirements.txt”で以下の依存パッケージがインストールされます。
依存パッケージは以下のとおりです。
Pillow lxml cssselect jieba beautifulsoup nltk
使ってみた感想としては、インストール含め非常にお手軽だと感じました。
学習も不要なのがよいです。
本文抽出の結果もまずまず?ではないでしょうか。
精度については、これから使い込んで評価していきたいと思います。