オープンデータとプログラミング

Pythonの本文抽出ライブラリboilerpipeのインストール(備忘録)

python

HTMLから本文抽出(スクレイピング)をするpythonライブラリの一つにboilerpipeがあります。
boilerpipeはpipでインストールすることができます。

pip install boilerpipe

もし、下記のエラーメッセージが出てしまったら、Microsoft Visual C++ 9.0をインストールしてください。

error: Microsoft Visual C++ 9.0 is required (Unable to find vcvarsall.bat). Get it from http://aka.ms/vcpython27

Microsoft Visual C++ 9.0は、次のURLからダウンロードすることができます。

インストールは無事終わったかにみえましたが、boilerpipeをインストールするとpythonじたいがクラッシュ。

原因不明なので、継続調査です。

ちなみに、Pythonのバージョンは 2.7.2です。

こちらのサイトを見ると、Windows環境はビックリマークが付いています。
https://code.activestate.com/pypm/boilerpipe/

boilerpipeがだめなら、他のライブラリを試すとするか…。ありましたありました、比較サイトが!
Dragnet、Eatiht、Readabilityは初めて知りました。

Benchmarking Python Content Extraction Algorithms: Dragnet, Readability, Goose, and Eatiht
https://moz.com/devblog/benchmarking-python-content-extraction-algorithms-dragnet-readability-goose-and-eatiht/

Comments are closed.