2000명 이상의 주요 Instagram Github 코딩 인플루언서에 대한 GitHub 데이터셋 샘플입니다. 데이터셋은 Bright Data Collector를 사용하여 추출되었습니다.
- 팔로워 수
- 프로필 유형
- 계정 유형
- 참여 점수
- 카테고리
- 위치
- 외부/바이오 링크
- 사용된 해시태그
- 브랜드 제휴
- 바이오
- 하이라이트
- 게시물
이는 "All Instagram account, business & nonbusiness (public data)" 데이터셋에서 파생된 샘플 서브셋이며, 해당 데이터셋에는 614,000,000개의 Instagram 프로필이 포함됩니다.
이 예시에서는 Bright Data 컨트롤 패널에서 제공되는 스마트 필터 쿼리를 사용하여 대규모 데이터셋을 더 작은 서브셋으로 필터링했습니다.
-
$or: [{"post_hashtags":"github"},{"bio_hashtags":"github"}] -
followers: {"$gt":100}
추가 필터 쿼리 값에는 Posts count, cuntry, verified account, multiple hashtag combinations and more.가 포함됩니다.
사용 가능한 데이터셋 파일 형식: JSON, NDJSON, JSON Lines, CSV, or Parquet..
데이터셋 전달 유형 옵션: API download, Amazon S3, Google cloud, Microsoft Azure, SFTP.
추출된 데이터 포인트에 추가로 사용할 수 있는 데이터 강화: Avg. post engagement rate, brand affiliation and more.
전체 Instagram dataset을 확인하십시오.
- 635,000,000 "Instagram profiles dataset"
- 89,000,000 "Instagram posts dataset"
- 12,490,000 "Instagram reels dataset"
- 206,000 "Instagram comments dataset"
Bright Initiative는 다양한 환경 및 사회적 목적을 증진하는 주요 학술 단과대학 및 연구자, NGOs 및 NPOs에 Bright Data의 Web Scraper APIs 접근 권한을 제공합니다. 신청서는 here에서 제출할 수 있습니다.