オープンデータとプログラミング

Pentaho

プログラミング・スキル不要!「無料」で使えるデータ変換ツールはこれだ!

ビジネスの現場で求められるデータ変換スキル

ビジネスの現場では、顧客や売上データの分析など、さまざまな形式のデータの変換が必要になる場面は少なくありません。しかし、EXCELやCSV、XMLなどのデータ変換をしたり、複数のデータを統合するためには、難しいプログラミング技術が必要だと思っていませんか?
プログラミングとなれば、エンジニアに頼まなければできません。「エンジニアに依頼せずに手元のPCで思い通りにデータ変換ができたらいいのに…」と思うこともあるでしょう。

今回ご紹介するデータ変換ツールは、そんなビジネスマンの方にもピッタリのツールです。

プログラミングレスのデータ変換を実現してくれるのがETLツール

これを実現するのがETLツールと呼ばれるものです。ETLとは、簡単にいってしまうと
(1)データの読み込み、(2)変換・加工、(3)データの書き出しの3つの工程を一手に引き受けてくれるツールです。
ウィキペディア(Wikipedia)では次のように説明されています。

Extract/Transform/Load(略称:ETL)とは、データウェアハウスにおける以下のような工程を指す。

Extract – 外部の情報源からデータを抽出
Transform – 抽出したデータをビジネスでの必要に応じて変換・加工
Load – 最終的ターゲット(すなわちデータウェアハウス)に変換・加工済みのデータをロード

ETLは、データウェアハウスにデータを実際にロードする方法として重要である。ETLという用語はデータウェアハウスでのデータのロードだけでなく、任意のデータベースでのロード工程を指すこともある。ETLはレガシーシステムとの統合にも使われる。通常のETL実装は、処理についての監査証跡を記録する。ほとんど全ての設計において、この監査証跡は、元のデータが利用不可能な場合にETLの結果を再現できるほどの細粒度のレベルにはなっていない。

求められるスキルは?

多少の学習時間は必要ですが、EXCELを使いこなしている方であれば、プログラミング経験がなくても習得可能です。
ETLツールの操作は、画面からマウスを使って行いますので何とかなります。

もちろんプログラミング経験のある方であれば、より短期間で習得可能です。
ETLツールを使いこなせれば、格段に生産性があがること間違いなしです。

お勧めはPentahoのETLツール

ETLツールとしてお勧めしたいのが、Pentahoの「Data Integration」です。略して「PDI」とも呼ばれています。

Pentahoは、オープンソースのBIツール(Business Intelligence Tool)として非常に有名ですが、ETLツールの存在はあまり知られていません。「Data Integration」は、PentahoのBIツール「Business Analytics Platform」とは独立して単独で利用できるETLツールです。「Business Analytics Platform」の影に隠れて地味な存在ですが、洗練されたユーザインターフェースを持ち、使いやすく仕上げられたツールです。

「Data Integration」のインストール

「Data Integration」のダウンロードサイトは、Pentaho公式サイトからたどることができます。
ただ、無料のコミュニティ版のダウンロードページへのリンクが少し分りにくい場所にあるので、直接リンクを載せておきます。

http://community.pentaho.com/

「Data Integration」のダウンロードへのリンクは、下のスクリーンショットの矢印のところです。
緑色のボタンをクリックするとダウンロードすることができます。
「Data Integration」の実行にはJavaが必要です。インストールされていない場合は、インストールしておきましょう。

screenshot-community.pentaho_201507

<Windowsの場合>
ダウンロードしたファイルは、zipで固めてあるだけなので解凍して、適当なフォルダに置きます。

data-integrationフォルダにある”spoon.bat”をクリックすると、「Data Integration」が起動します。
下の画面は、起動直後の画面です。

pdi

<Macの場合>
data-integrationフォルダごと、アプリケーションフォルダに移動してください。
すると、Launchpad上に「Data Integration」のアイコンが表示されるようになります。
このアイコンをクリックすれば起動します。

screen_shot

今回はインストールから起動までの手順を説明しました。
次回からはいよいよ使い方の説明に入ります。