I.Cloudera Impalaの紹介
Cloudera Impalaは、HDFSまたはHBaseに格納されたHadoopデータに直接、高速でインタラクティブなSQLクエリを提供します。同じストレージプラットフォームを使用するだけでなく、ImpalaはApache Hiveと同じメタデータ、SQL構文、ODBCドライバ、ユーザーインターフェイスを使用しているため、バッチクエリやリアルタイムクエリに同様の統一されたプラットフォームを簡単に提供できます。
Cloudera Impalaは、ビッグデータクエリを実行するための補完的なツールです。 ImpalaはHiveのようなMapReduceベースの分散処理フレームワークを置き換えるものではなく、Hiveや他のMapReduceベースのコンピューティングフレームワークは、ETL操作を必要とするバッチExtract、Transform、Loadを含むような長時間実行のバッチジョブに適しています。
II.インパラの利点
インパラが提供します:
1.Impalaは以下のコンポーネントで構成されています:
Impalaステートストア:ステートストアは、環境におけるimpaladインスタンスの動作に関する情報を較正します。 この情報は、分散リソースがクエリに応答するためのデータを見つけるために使用されます。
impalad : impaladプロセスはデータノード上で実行され、Impalaのサーバーサイドとして機能するImpalaシェルからのコマンドに応答します。アドレス
Impalaシェル:Impalaシェルは、ODBCまたはJDBCを介してImpalaサーバーimpaladに接続するなどの管理タスクを完了するために使用されるクエリコマンドを実行するために使用されるImpalaクライアントインターフェイスであり、受信し、渡すためにクエリを完了するために標準化されたクエリインターフェイスを提供します。
2.Impalaを使ったクエリの手順は以下の通りです:
Impalaの分散クエリーエンジンは、クラスタリングによってクエリータスクを作成し、分散します。
各ノードはローカルのHDFSまたはHBaseからデータを直接読み込み、クエリのパフォーマンスを向上させるために分散クエリタスクを実行します。
impalad は結果をクライアントに返します。
四つ、
インパラの主な特徴
Impalaは以下のサポートを提供します:
select、join、および集約関数を含む、一般的なHive標準クエリ言語。
HDFSとHBaseのストレージフォーマット
HDFSファイルフォーマット:TextFile、SequenceFile
圧縮コード:Snappy、GZIP、BZIP
一般的な Hive インターフェイス:





