blog

ビジネスデータの収集

データモック データ同期戦略 sqoopスクリプト作成...

Jan 26, 2020 · 1 min. read
シェア

データモック

最初に設定ファイルを修正する
データを生成するSpringbootコード
java -jar /usr/local/src/sub/mysql/gmall-mock-db.jar

データ同期戦略

 
 1.データ量は少ないが、辞書テーブルなどは毎日追加・修正される
 
 1.変更不可能なテーブル(例:県と地域テーブル
 
 
 1.データ量が多く、新しいデータのみが挿入されるテーブル 例:注文詳細や支払いフローテーブル
 
テーブルの追加と変更
 1.大量のデータ、新しいデータ、変更されたデータを含むテーブル 例:ユーザーテーブル、オーダーテーブル
 
 2.Zipテーブル 
 ゆっくりとデータが変化するテーブルの場合

sqoopスクリプト作成

#! /bin/bash
sqoop=/opt/module/sqoop/bin/sqoop 
do_date=`date -d '-1 day' +%F`
if [[ -n "$2" ]]; then 
fi
import_data(){
$sqoop import \
--connect jdbc:mysql://master:3306/gmall \
--username root \
--password 000000 \
--target-dir /origin_data/gmall/db/$1/$do_date \ --delete-target-dir \
--query "$2 and \$CONDITIONS" \
--num-mappers 1 \
--fields-terminated-by '\t' \
--compress \
--compression-codec lzop \
--null-string '\\N' \
--null-non-string '\\N'
hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer /origin_data/gmall/db/$1/$do_date
Read next

Javaの基本 - IOストリームのまとめ

ノード・ストリームは、データ・ソースに直接接続する低レベルのストリームです。 処理フローは、修飾子の設計パターンに属する層でラップされたノードフローに、直接データソースに接続されません、ノードフローをラップする処理フローを介して、両方の異なるノードフローの違いの実装を排除することができますが、また、入力と出力を完了するために、より便利な方法を提供します。 パフォーマンスの向上:主な方法は、入出力の効率を向上させるためにバッファを増やすことです。 操作の利便性:処理...

Jan 25, 2020 · 5 min read