blog

Cloudera Impalaの紹介

Cloudera Impalaは、HDFSまたはHBaseに保存されたHadoopデータに直接、高速でインタラクティブなSQLクエリを提供できます。同じストレージプラットフォームを使用するだけでなく、...

Mar 30, 2018 · 2 min. read
シェア

I.Cloudera Impalaの紹介

Cloudera Impalaは、HDFSまたはHBaseに格納されたHadoopデータに直接、高速でインタラクティブなSQLクエリを提供します。同じストレージプラットフォームを使用するだけでなく、ImpalaはApache Hiveと同じメタデータ、SQL構文、ODBCドライバ、ユーザーインターフェイスを使用しているため、バッチクエリやリアルタイムクエリに同様の統一されたプラットフォームを簡単に提供できます。

Cloudera Impalaは、ビッグデータクエリを実行するための補完的なツールです。 ImpalaはHiveのようなMapReduceベースの分散処理フレームワークを置き換えるものではなく、Hiveや他のMapReduceベースのコンピューティングフレームワークは、ETL操作を必要とするバッチExtract、Transform、Loadを含むような長時間実行のバッチジョブに適しています。

II.インパラの利点

インパラが提供します:

1.Impalaは以下のコンポーネントで構成されています:

Impalaステートストア:ステートストアは、環境におけるimpaladインスタンスの動作に関する情報を較正します。 この情報は、分散リソースがクエリに応答するためのデータを見つけるために使用されます。

impalad : impaladプロセスはデータノード上で実行され、Impalaのサーバーサイドとして機能するImpalaシェルからのコマンドに応答します。アドレス

Impalaシェル:Impalaシェルは、ODBCまたはJDBCを介してImpalaサーバーimpaladに接続するなどの管理タスクを完了するために使用されるクエリコマンドを実行するために使用されるImpalaクライアントインターフェイスであり、受信し、渡すためにクエリを完了するために標準化されたクエリインターフェイスを提供します。

2.Impalaを使ったクエリの手順は以下の通りです:

Impalaの分散クエリーエンジンは、クラスタリングによってクエリータスクを作成し、分散します。

各ノードはローカルのHDFSまたはHBaseからデータを直接読み込み、クエリのパフォーマンスを向上させるために分散クエリタスクを実行します。

impalad は結果をクライアントに返します。

四つ、

インパラの主な特徴

Impalaは以下のサポートを提供します:

select、join、および集約関数を含む、一般的なHive標準クエリ言語。

HDFSとHBaseのストレージフォーマット

HDFSファイルフォーマット:TextFile、SequenceFile

圧縮コード:Snappy、GZIP、BZIP

一般的な Hive インターフェイス:

Read next

ファーウェイHD会議システムTE30:低帯域幅でのHD体験

オールインワン設計で5分で導入可能\nAll-In-Oneの設計コンセプトに基づき、ファーウェイのTE30はカメラ、マイク、端末を1つのユニットに統合することで、従来のように別々のシステムを用意する必要がなくなり、ユーザーにすっきりとした会議室環境を提供します。同時に、TE

Mar 30, 2018 · 1 min read