ビジネスの現場で求められるデータ変換スキル
ビジネスの現場では、顧客や売上データの分析など、さまざまな形式のデータの変換が必要になる場面は少なくありません。しかし、EXCELやCSV、XMLなどのデータ変換をしたり、複数のデータを統合するためには、難しいプログラミング技術が必要だと思っていませんか?
プログラミングとなれば、エンジニアに頼まなければできません。「エンジニアに依頼せずに手元のPCで思い通りにデータ変換ができたらいいのに…」と思うこともあるでしょう。
今回ご紹介するデータ変換ツールは、そんなビジネスマンの方にもピッタリのツールです。
プログラミングレスのデータ変換を実現してくれるのがETLツール
これを実現するのがETLツールと呼ばれるものです。ETLとは、簡単にいってしまうと
(1)データの読み込み、(2)変換・加工、(3)データの書き出しの3つの工程を一手に引き受けてくれるツールです。
ウィキペディア(Wikipedia)では次のように説明されています。
Extract/Transform/Load(略称:ETL)とは、データウェアハウスにおける以下のような工程を指す。
Extract – 外部の情報源からデータを抽出
Transform – 抽出したデータをビジネスでの必要に応じて変換・加工
Load – 最終的ターゲット(すなわちデータウェアハウス)に変換・加工済みのデータをロードETLは、データウェアハウスにデータを実際にロードする方法として重要である。ETLという用語はデータウェアハウスでのデータのロードだけでなく、任意のデータベースでのロード工程を指すこともある。ETLはレガシーシステムとの統合にも使われる。通常のETL実装は、処理についての監査証跡を記録する。ほとんど全ての設計において、この監査証跡は、元のデータが利用不可能な場合にETLの結果を再現できるほどの細粒度のレベルにはなっていない。
求められるスキルは?
多少の学習時間は必要ですが、EXCELを使いこなしている方であれば、プログラミング経験がなくても習得可能です。
ETLツールの操作は、画面からマウスを使って行いますので何とかなります。
もちろんプログラミング経験のある方であれば、より短期間で習得可能です。
ETLツールを使いこなせれば、格段に生産性があがること間違いなしです。
お勧めはPentahoのETLツール
ETLツールとしてお勧めしたいのが、Pentahoの「Data Integration」です。略して「PDI」とも呼ばれています。
Pentahoは、オープンソースのBIツール(Business Intelligence Tool)として非常に有名ですが、ETLツールの存在はあまり知られていません。「Data Integration」は、PentahoのBIツール「Business Analytics Platform」とは独立して単独で利用できるETLツールです。「Business Analytics Platform」の影に隠れて地味な存在ですが、洗練されたユーザインターフェースを持ち、使いやすく仕上げられたツールです。
「Data Integration」のインストール
「Data Integration」のダウンロードサイトは、Pentaho公式サイトからたどることができます。
ただ、無料のコミュニティ版のダウンロードページへのリンクが少し分りにくい場所にあるので、直接リンクを載せておきます。
「Data Integration」のダウンロードへのリンクは、下のスクリーンショットの矢印のところです。
緑色のボタンをクリックするとダウンロードすることができます。
※「Data Integration」の実行にはJavaが必要です。インストールされていない場合は、インストールしておきましょう。
<Windowsの場合>
ダウンロードしたファイルは、zipで固めてあるだけなので解凍して、適当なフォルダに置きます。
data-integrationフォルダにある”spoon.bat”をクリックすると、「Data Integration」が起動します。
下の画面は、起動直後の画面です。
<Macの場合>
data-integrationフォルダごと、アプリケーションフォルダに移動してください。
すると、Launchpad上に「Data Integration」のアイコンが表示されるようになります。
このアイコンをクリックすれば起動します。
今回はインストールから起動までの手順を説明しました。
次回からはいよいよ使い方の説明に入ります。