HTMLから本文抽出(スクレイピング)をするpythonライブラリの一つにboilerpipeがあります。
boilerpipeはpipでインストールすることができます。
pip install boilerpipe
もし、下記のエラーメッセージが出てしまったら、Microsoft Visual C++ 9.0をインストールしてください。
error: Microsoft Visual C++ 9.0 is required (Unable to find vcvarsall.bat). Get it from http://aka.ms/vcpython27
Microsoft Visual C++ 9.0は、次のURLからダウンロードすることができます。
インストールは無事終わったかにみえましたが、boilerpipeをインストールするとpythonじたいがクラッシュ。
原因不明なので、継続調査です。
ちなみに、Pythonのバージョンは 2.7.2です。
こちらのサイトを見ると、Windows環境はビックリマークが付いています。
https://code.activestate.com/pypm/boilerpipe/
boilerpipeがだめなら、他のライブラリを試すとするか…。ありましたありました、比較サイトが!
Dragnet、Eatiht、Readabilityは初めて知りました。
Benchmarking Python Content Extraction Algorithms: Dragnet, Readability, Goose, and Eatiht
https://moz.com/devblog/benchmarking-python-content-extraction-algorithms-dragnet-readability-goose-and-eatiht/