blog

7つのオープンソースデータサイエンスプロジェクト

概要\nここでは\nPalmerPenguinsデータセットの紹介です。\nひとつアドバイスがあります。私がデータサイエンスのキャリアをスタートしたときに、誰かがこのアドバイスをしてくれたらよかったの...

Apr 16, 2020 · 7 min. read
シェア

概要

  • オープンソースのデータサイエンス・プロジェクトを7つご紹介します。

プレゼンテーション

ひとつアドバイスさせてください。私がデータサイエンスのキャリアをスタートさせたとき、誰かがこのアドバイスをしてくれていたらと思います。

データサイエンス・プロジェクトは、特に初心者の場合、履歴書に大きな価値を加えます。ほとんどの新人は認定資格を取得しますが、オープンソースのデータサイエンス・プロジェクトを加えることで、競合他社よりもかなり優位に立つことができます。

信じてください、オープンソースのデータサイエンス・プロジェクトの数は驚異的です。

ここでは、6月に作成またはリリースされたオープンソースのデータサイエンス・プロジェクトのトップリストを紹介します。これは、GitHub でオープンソース化されている最高のデータサイエンス・プロジェクトを紹介する、私の月例プロジェクト・シリーズの一環です。

プロジェクトの分野別に3つのグループに分類しました:

  • 機械学習

  • コンピュータビジョン

  • その他のオープンソースデータサイエンスプロジェクト。

それぞれのカテゴリーを別々に見てみましょう。

オープンソースの機械学習プロジェクト

これらの機械学習プロジェクトここでは、機械学習に関連する3つの有用なオープンソースプロジェクトを紹介します。あなたの興味に応じて1つのプロジェクトを選ぶこともできますし、すべてを試すこともできます。

機械学習論文に関するプロジェクトや機械学習パイプラインの構築に関するプロジェクトなど、できるだけ多様なプロジェクトにしました。

図解と注釈付き機械学習論文

リンク:github.com/Machine-Lea...

機械学習の研究論文を読むのは、初心者はもちろん、ほとんどの専門家にとっても大変なことです。

データサイエンティストや機械学習の研究者は、専門家でも解読が難しい高度に技術的な論文を書く傾向があります。これは、この分野における最大の悩みの1つです。

そのため、複雑さを打破する努力は大歓迎です。この有用なプロジェクトは、データサイエンスと機械学習の論文集です。"図解、注釈、用語、先行研究の簡単な説明が含まれているため、論文を読みやすく、主要なアイデアにアクセスしやすくなっています。"

このプロジェクトは先週GitHubでオープンソースになったばかりなので、定期的に更新されます。現在、論文の一部が公開されているので、アノテーションがどのように行われているのか見てみることができます。私は特にYOLOv1のアノテーションが好きです:

とてもクール!この論文や他の論文を探求し続けてください。学ぶことがたくさんあります!

機械学習フレームワークNeoML

リンク:github.com/n...

このプロジェクトは、データサイエンスの知識が少しでもある人にとっては非常に興味深いものです。

NeoMLは、機械学習モデルの構築、トレーニング、デプロイを可能にする包括的な機械学習フレームワークです。

つまり、既製のソリューションに多額の資金を費やすことなく、エンドツーエンドの機械学習パイプラインを構築することが可能なのです。

データサイエンティストやデータエンジニアは、イメージの前処理、分類、文書分析、OCR、構造化文書や非構造化文書からのデータ抽出など、コンピュータビジョンや自然言語処理のタスクに使用できます。

GitHubのリポジトリから引用したNeoMLの主な機能は以下の通りです:

  • 100種類以上のレイヤーをサポートするニューラルネットワーク

  • 従来の機械学習:20以上のアルゴリズム

  • 高速CPU推論のサポート

  • ONNX

  • 言語: C++Java、Objective-C

  • クロスプラットフォーム:Windows、Linux、macOS、iOS、Android上で同じコードを実行できます。

Google機械学習のためのCaliban

リンク:github.com/cali...

これは、研究志向の傾向があるデータサイエンティストが好むようなプロジェクトです。テスト環境から完全なデプロイメントに移行するのは、簡単なステップではないことがよくあります。

もちろん、グーグルはカリバンという解決策を用意しています。

CalibanはGoogleの機械学習研究者とエンジニアによって開発されました。

彼らが言うように、Calibanは "ワークステーション上で動作する単純なプロトタイプから、クラウド上で動作する何千もの実験的なジョブまで簡単に行えるようにします"。以下が注意すべきポイントです:

  • 実験的なコードをローカルで開発し、隔離された環境でテストします。

  • 実験パラメータのスキャン

  • 実験をクラウドジョブとして送信すると、同じ分離された環境で実行されます。

  • 自分の仕事を管理・追跡

オープンソースコンピュータビジョンプロジェクト

コンピュータ・ビジョンの分野での進歩には驚かされます。この記事を書くために腰を下ろすと、毎月のように画期的なフレームワークや、この分野を最新のレベルに引き上げる新しい方法に出会います。

各機関はコンピュータ・ビジョンの才能を求めて世界中を探し回っており、今こそこれらのプロジェクトに取り組み、この分野に参入する絶好のチャンスです。

Genetic Drawing

リンク:github.com/gen...

もし私があなたに目標とするイメージを与え、そのイメージをゼロから作成するコンピュータビジョンプログラムを書くように頼んだらどうなるでしょうか?そう、これがコンピュータ・ビジョンの力なのです!

この非常にクールなオープンソースプロジェクトは、ターゲットイメージを得るための描画プロセスをシミュレートすることができます。以下は、そのプロセスの小さなデモンストレーションです:

このプロジェクトを試すのが待ちきれません。実行するには以下のPythonライブラリが必要です:

  • OpenCV 3.4.1
  • NumPy 1.16.2
  • matplotlib 3.0.3

開発者はまた、コンピュータビジョンのマジックを見るために、それを実行できるように例を示しました。

PULSE

リンク:github.com/Fa...

このオープンソースプロジェクトは、少し上級のデータサイエンティスト向けです。

このプロジェクトの意義を理解するためには、単一イメージ超解像の概念を把握する必要があります。簡単に言えば、ここでの目標は、対応する低解像度の入力から高解像度のイメージを構築することです。

古典的なコンピュータビジョンのプロジェクトのようですね!

PULSEはこの問題提起に対する新しいソリューションです。潜在的空間探査による写真アップサンプリング」の略で、PULSEは信じられないほどの高解像度でシュールなイメージを生成します。これは完全に自己管理された方法で行われます。

PULSEがどのように機能するのか、例を示します:

コードを読む前に研究論文を読むことをお勧めします。そうすることで、PULSEがどのように動作するかをより理解することができ、コードをより明確に扱うことができます。

論文:arxiv.org/abs/2003.03...

その他のオープンソースデータサイエンスプロジェクト

ここでは、これらのカテゴリのどちらにも当てはまらないオープンソースのデータサイエンス・プロジェクトをいくつか紹介します。1つはデータサイエンスの初心者向け、もう1つは強化学習向けです。

自分に合ったプロジェクトを選び、探求を始めることができます。

PalmerPenguins

リンク:github.com/allisonhors...

これは、探索と視覚化のための素晴らしいデータセットです!

皆さんのほとんどが虹彩データセットを使ったことがあると思います。実際、機械学習における分類の概念を理解するために最初に使ったデータセットかもしれません。私は、理解し探求するためのデータセットが大好きです。

しかし、同じデータセットを使っていると、特に機械学習の裏表を学んでいる場合は、少し退屈になることがあります。

Palmenguinsは、先月オープンソース化されました。このデータセットは、Irisに代わるものとして位置づけられ、特に初心者にデータ探索と視覚化のための優れたデータセットを提供することを目指しています。

この体験を視覚化するために、あなたが思いつくことは以下の通りです:

上記で紹介したリンクには、このデータの探索を開始する方法の例が含まれています。また、異なる変数についての詳細もあります。

以下のコードでPalmerPenguinsをパソコンに取り込むことができます:

# install.packages("remotes")
remotes::install_github("allisonhorst/palmerpenguins")

SlimeVolleyGym

リンク:github.com/sl...

これはオープンソースの強化学習プロジェクトです。

SlimeVolleyGymは、単一および複数知能の強化学習アルゴリズムをテストするためのシンプルなジム環境です。機械学習のレジェンドであるhardmaru氏によって作成され、オープンソース化されました。

彼によれば、このゲームはうまくいっているそうです:

このゲームはとてもシンプルです:エージェントのゴールはボールを相手の地面に着地させ、相手のライフを失わせることです。各エージェントは5つのライフを持ってスタートします。どのエージェントも5つのライフを失うか,3000ステップを超えると終了します.対戦相手のエージェントが負けたとき,そのエージェントは+1のボーナスを獲得し,自分が負けたときは-1のボーナスを獲得します.

pip から直接インストールできます:

pip install slimevolleygym

終了

もしあなたが初心者なら、PalmerPenguinsデータセットから始めることをお勧めします。スタートダッシュを切る絶好の機会です。

パンチャンAIブログサイトへようこそ:panchuang.net/

Panchuangのブログリソースラウンドアップへようこそ:docs.panchuang.net/

Read next

linuxにWkhtmltoxをインストールする

centosのインストールは、通常のシステムをインストールし、更新した後に依存関係が不足しているプロンプトが表示されます:ここでは、直接パッケージをインストールするプロンプトに従うことができ、再度インストールコマンドを実行すると、正常にインストールされます!

Apr 15, 2020 · 1 min read