ゲストプロフィール
タオバオのデータの特徴
淘宝網のデータ特性について、明豊はいくつかの主要な側面があると考えています:
まず、大規模な、淘宝網の毎日のデータはTレベルであり、どのようにこれらのTレベルのデータの良い分析を行うには、収集、データクリーニングを行った後、より完全な行動データマイニングのために、これは解決すべき問題です。大量のデータのため、多くの伝統的なアルゴリズムを直接適用することは困難であり、改善するために並列化する必要があります。並列化の改善後、データは遅くなり、どのように両者のバランスを取るかが非常に重要です。
第三に、興味深い、淘宝網のデータは非常に豊富で、ユーザーの行動の複雑さから、バイヤーの生活特性の多くを見ることができるだけでなく、日本の消費者の消費行動の中心は、日本の地方を理解することができるように、データの最も簡単な統計分析を行っている何を購入する必要がある女の子、何を購入する必要がある男の子は、これらのデータは、風見鶏の日本の消費に非常に良い反応することができますので、淘宝網のデータは非常に興味深いです。
高性能データマイニングプラットフォームの構築
ビルド・プロセスでの注意点
Sparkを選ぶにせよ、他のフレームワークを選ぶにせよ、いくつかの共通点があります。明峰氏によると、「まず、高性能なシステムを構築する上で、ボトルネックがどこにあるのかを理解する必要があります。 システムがどれだけ速いかは、最も遅いポイントに依存するため、高性能を得るためには、最も遅いポイントを必要な性能ポイントまで高める必要があります。これは特に注目すべき点です。Sparkはバッチ計算とストリーミング計算のバランスをうまくとることができ、中間点を最小限に抑えることができます。"
淘宝網がSparkを開発する過程では、多くのことが非常に新しいので、コミュニティとの良好な双方向コミュニケーションを維持することが重要です。淘宝網では、Hadoop、HBase、Sparkのいずれであっても、プラットフォームを最高の形で提供するために、この作業モデルがすべてです。"





