2000人以上の主要なInstagramのGithubコーディングインフルエンサーのGitHubデータセットサンプルです。データセットはBright Data Collectorを使用して抽出されました。
- フォロワー数
- プロフィールタイプ
- アカウントタイプ
- エンゲージメントスコア
- カテゴリ
- ロケーション
- 外部/バイオリンク
- 使用されたハッシュタグ
- ブランド提携
- バイオ
- ハイライト
- 投稿
これは、「All Instagram account, business & nonbusiness (public data)」データセットから派生したサンプルサブセットです。 このデータセットには614,000,000件のInstagramプロフィールが含まれています。
この例では、Bright Dataのコントロールパネルで利用できるスマートフィルタークエリを使用して、大規模なデータセットをより小さなサブセットに絞り込みました。
-
$or: [{"post_hashtags":"github"},{"bio_hashtags":"github"}] -
followers: {"$gt":100}
追加のフィルタークエリ値には、投稿数、cuntry、認証済みアカウント、複数ハッシュタグの組み合わせなどが含まれます。
利用可能なデータセットファイル形式: JSON, NDJSON, JSON Lines, CSV, or Parquet.。
データセットの配信タイプオプション: API download, Amazon S3, Google cloud, Microsoft Azure, SFTP。
抽出されたデータポイントに追加できるデータエンリッチメント: 平均投稿エンゲージメント率、ブランド提携など。
完全版のInstagram datasetを入手してください。
- 635,000,000 「Instagram profiles dataset」
- 89,000,000 「Instagram posts dataset」
- 12,490,000 「Instagram reels dataset」
- 206,000 「Instagram comments dataset」
Bright Initiativeは、さまざまな環境・社会的課題の推進に取り組む主要な学術機関の学部および研究者、NGO、NPOに対して、Bright DataのWeb Scraper APIsへのアクセスを提供しています。申請はこちらから提出できます。