本文抽出のパッケージの中では比較的手軽に使えそうな“python-goose”を試してみました。
インストールは以下の手順でOKでした。
1 2 3 4 | git clone https: //github .com /grangier/python-goose .git cd python-goose pip install -r requirements.txt python setup.py install |
上記手順の3行目“pip install -r requirements.txt”で以下の依存パッケージがインストールされます。
依存パッケージは以下のとおりです。
Pillow lxml cssselect jieba beautifulsoup nltk
使ってみた感想としては、インストール含め非常にお手軽だと感じました。
学習も不要なのがよいです。
本文抽出の結果もまずまず?ではないでしょうか。
精度については、これから使い込んで評価していきたいと思います。