序文
設立の理由
オープンソースプロジェクト「Recommended System with TF2.0」は、これまで読まれてきたRecommended SystemやCTR予測論文の一部を再現することに重点を置いています。設立の理由は3つあります:
- 理論と実践の間には大きな隔たりがあり、学術界と産業界の間にはさらに大きな隔たりがあります;
- 論文の核心をより深く理解し、エンジニアとしてのスキルを高めてください;
プロジェクトの特徴
プロジェクトの特徴
- TF2.0-CPUを使用したレプリケーション;
- 各モデルは互いに独立しており、依存関係はありません;
- 実験データセットについては、専用の詳細な説明があります;
- 各モデルについては、専用のコードドキュメントなどで説明します;
現在の再生産モデル
現在再現されているモデルは以下の通り:
- NCF
- DIN
- Wide&Deep
- DCN
- PNN
- Deep Crossing
- DeepFM 継続的な更新······
具体的な内容
オープンソースプロジェクトの詳細は以下の通りです:
データセットの紹介
再生処理に使用したデータセットの簡単な説明、その中の特徴、データセットの処理過程。
例
クリテオ
Criteo広告データセットは、広告のクリック率を予測するために使用される古典的なデータセットです。2014年、ディスプレイ広告チャレンジコンペティションは、世界的に有名な広告会社であるCriteoによって主催されました。しかし、このコンペティションはあまりにも長く続いたため、データセットはKaggleから入手できなくなりました。データセットやそのサンプルを入手するには、3つの方法があります:
- Criteo_sample.txt:DeepCTRに含まれ、モデルが正しいかどうかをテストします;
- kaggle Criteo: トレーニングセット、テストセット。
論文モデリング
セクションは主に次のように分かれています:
- モデル構造図;
- 実験データセット;
- コード分析:つまり、簡単なドキュメントのオープンソースコードの現在のモデルは、アップデートを改善するために.....;
- 元の住所
例
クリック率予測のためのディープ・インタレスト・ネットワーク (DIN)
モデル
データセット: Amazonデータセットの電子機器サブセット。 コード解析:
次のタスク
昨晩、学生からある論文を再現するかどうか尋ねられたので、はっきりとは言えません。すでに読んだ論文の再現:FNN、xDeepFM、AFMなど、新しい2020年の論文の紹介と再現論文の一部:DMRなど;