D man? blog

言語開発と開発ブログ

なんとなくやる機械学習(画像収集方法編)

はいどうも

何かと忙しすぎて全然かけませんでした

はじめに

機械学習をするに関して学習用のデータが大量に欲しい場合があります。

今回の場合は画像なんですが、自分で写真を撮って学習させるなんてめんどくさいです...

かといってWebにある画像を右クリック保存なんてやってたら日が暮れても終わりません

なんとか自動で画像を集めてくれるものはないのかと調べました。

方法は二つあり、

  • Web scraping

が主にありました

それぞれ環境構築やソースコードに関してはおいおい書きます

Web scraping(Webスクレイピング)

ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。ウェブ・クローラー[1]あるいはウェブ・スパイダー[2]とも呼ばれる。 通常このようなソフトウェアプログラムは低レベルのHTTPを実装することで、もしくはウェブブラウザを埋め込むことによって、WWWのコンテンツを取得する。

ウェブスクレイピング - Wikipedia

簡単に言えばYahooやGoogleの画像検索した結果を解析してタグ探して保存することです...(大雑把)

ただし、法的な問題があるので注意が必要です。
qiita.com
↑参考
www.d-man.site


検索エンジンAPI

検索エンジンなどで検索結果の画像をjsonなどで返してくれるサービスがあります

Twitter

などなど

無料で使うにはそれぞれ制限があるので注意してください