ImageNet

機械学習および
データマイニング
問題
理論
  • 偏りと分散のトレードオフ
  • 計算論的学習理論(英語版)
  • 経験損失最小化(英語版)
  • オッカム学習(英語版)
  • PAC学習
  • 統計的学習(英語版)
  • VC理論(英語版)
学会・論文誌等
  • NIPS(英語版)
  • ICML(英語版)
  • ML(英語版)
  • JMLR(英語版)
  • ArXiv:cs.LG

カテゴリ Category:機械学習

カテゴリ Category:データマイニング

ImageNetは、物体認識ソフトウェアの研究で用いるために設計された大規模な画像データベースである。ImageNetでは、1400万を超える[1][2]画像に手作業でアノテーションを行い、画像にどのような物体が写っているかを示している。また、100万枚以上の画像にバウンディングボックス(英語版)も付与されている[3][注釈 1]。ImageNetには、20,000を超えるカテゴリがあり、その中には「気球(balloon)」や「イチゴ(strawberry)」といった数百枚の画像で構成される一般的な物体カテゴリも含まれる[4]。2010年から2017年まで、ImageNetプロジェクトは毎年、大規模[5]な画像認識技術コンテストであるILSVRC(the ImageNet Large Scale Visual Recognition Challenge)を開催していた。このコンテストは、ソフトウェアが物体や情景をどれだけ正しく分類、検出できるかを競うものである[6]。チャレンジでは、重複しないように調整された1000個のカテゴリが利用される[7]。論文により、今のImageNetの最高なレコードは「CoCa(finetune)」である。[8]

深層学習への貢献

2012年9月30日、 AlexNet[9]と呼ばれる畳み込みニューラルネットワーク(CNN)が、ILSVRC2012においてトップ5エラー[注釈 2]で16.4%を達成した[11]。これは、次点のものより約10%程度低い値であった[11]エコノミストによれば、「ディープラーニングは突如として、AIコミュニティに留まらず、テクノロジー業界全体で注目を集めるようになった。」と評している[4][12][13]

2015年には、Microsoftが開発した100層を超える非常に層の深いCNNがAlexNetを上回り、ImageNet2015コンテストで優勝した[14]

こうした大幅な性能向上の理由として、深層学習モデルの構造が発達したことや深層学習モデルの学習で並列計算に用いられるGPUの性能向上が著しいことに加え、深層学習モデルを十分に学習できるImageNetのような大規模データセットが登場したことも挙げられている[15][16]

ILSVRCは2017年に終了している[5]が、ImageNetのデータベースは現在でもモデルやアルゴリズムの性能を比較するためのベンチマークとして画像認識の分野でしばしば利用されている[17][18]

データベースの歴史

AI研究者のフェイフェイ・リは、2006年にImageNetのアイデアに取り組み始めた。当時、大部分のAI研究がモデルとアルゴリズムに焦点を合わせていた中、LiはAIアルゴリズムの学習に利用できるデータセットを拡張、改善したいと考えていた[19]。2007年に、LiはWordNetの作成者の1人であるプリンストン大学のChristiane Fellbaum教授と面会し、プロジェクトについて話し合った。この議論の結果、LiはWordNetの単語データベースを元に、ImageNetの構築を進めた[20]

プリンストン大学の助教授として、LiはImageNetプロジェクトに取り組むための研究者チームを編成した。彼らはAmazonMechanicalTurkを利用して画像の分類を支援した[20]

彼らは、フロリダで開催された2009年のConference on Computer Vision and Pattern Recognition(CVPR(英語版))で、初めてデータベースを対外向けにポスターで発表した[20][21][22]

データセット

ImageNetは、アノテーションの工程をクラウドソーシングしている[7]。画像レベルのアノテーションは、「この画像にトラがいる」「この画像にはトラがいない」といった、画像内に特定のクラスのオブジェクトが存在するかどうかを示す。オブジェクトレベルのアノテーションは、示されたオブジェクトの周囲にバウンディングボックスを与える。 ImageNetは、WordNetのカテゴリを使用してオブジェクトを分類している。例えば犬に対しては120の犬種のカテゴリで分けられる[23]など、細かく分類されている。WordNetのカテゴリを使用することの欠点として、ImageNetに対して本来最適なカテゴリ分けよりも高尚なものになっている可能性があることが挙げられる。 2012年、ImageNetはアカデミックユーザーとしてMechanicalTurkを世界で最も利用していた。平均的なアノテーション作業者は、1分あたり50枚の画像を識別した[2]。 ImageNetは画像のURLと画像それぞれに対するアノテーションのデータベースを提供しており、ImageNetから直接無料でダウンロードできるが、実際の画像自体はImageNetが所有しているわけではない[24]

ImageNet Challengeの歴史

ImageNetで評価したエラー率の履歴(各年、参加チームの中で性能の良い順に10エントリを抽出)

ImageNet Large Scale Visual Recognition Challenge(ILSVRC)は、2010年から2017年まで毎年実施されていた[25]画像認識コンテストで、アルゴリズムを用いて学習したモデルがImageNetのデータを分類、検出する能力を競うものである[6]。ILSVRCは、2005年に設立されたPASCAL VOCチャレンジという、より小規模なコンテストの後を継ぐことを目的としたものである[26]。PASCAL VOCチャレンジには、約20,000枚の画像と20の分類クラスしか含まれていなかった[27]。ImageNetを開かれたものにするため、Fei-FeiLiはPASCAL VOCチームに協同することを提案した。この取り組みは、研究チームが特定のデータセットでアルゴリズムを評価し、いくつかの視覚認識タスクでより高い精度を達成するために競争するというもので[20]、これがILSVRCのはじまりである。

ILSVRCは、ImageNetの分類体系によって分類された1000の画像カテゴリから構成されるデータセットを使用する[注釈 3][7]。2010年代は、画像処理が劇的に進歩した時期である。2011年頃には、ILSVRCの分類タスクにおけるTop-5 エラー率は約25%だった[11]。その後2012年には、AlexNetと呼ばれる深層畳み込みニューラルネットを用いたモデルがTop-5 エラー率約16%を達成した[11]。さらにそこからの数年間で、Top-5エラー率は数パーセントまで低下した[29]。2012年のAlexNetのブレイクスルーは「それまでに存在していたものの組み合わせ」[注釈 4]であったが、AlexNetは大量のデータを学習することで劇的な性能改善を図っており、この大量データを学習できるようになる改善は、業界全体で人工知能ブームが始まるきっかけとなった[4]。2015年までに、Microsoftの研究者は、狭いILSVRCタスクにおいては、CNNの認識性能が人間の能力を超えたと報告した [14][30]。ただし、ILSVRCの主催者の1人であるOlga Russakovskyが2015年に指摘したように、機械学習プログラムは1つの画像に対して、1000のカテゴリのうち1つに属するものであると識別するだけで良いのに対し、人間はより多くのカテゴリを認識することができるし、(プログラムとは異なり)画像の文脈を判断することもできる[31]

2014年までに、のべ80を超える団体がILSVRCに参加した[32]。 2015年には百度の研究者が、1週間のうちに2回までしかモデルを提出できないという制限を、複数のアカウントを用いることで破ったとして、1年間参加を禁じられた[33][34]。その後百度は、関与したチームリーダーを解雇し、エンジニアに助言する委員会を設置すると発表した[35]

2017年には、参加した38チームのうち29チームが95%を超える精度を達成した[36]。こうしたことから、ImageNetももはや深層学習技術の進展を測るベンチマークとしては、データ量が少ないと指摘されることもある[37]。 精度の向上が進み上昇の余地が小さくなってきたことを理由に、2017年を最後に終了することを発表し、同年7月の大会が最後となった[25]

ImageNetの課題

2019年に行われたImageNetとWordNetに関する様々な観点(分類体系、物体クラス、ラベリング)からの研究により、ほとんどの画像分類アプローチにImageNetやWordNetのデータセットのバイアスが深く埋め込まれていることが示されている[38][39][40][41]。例えばGoogleの研究者は、2020年に、ImageNetのラベルを新たに付与し直しそのデータセットで複数の画像認識アルゴリズムの性能を評価したところ、性能を改善する効果がアルゴリズムの作成者が主張するものより小さくなったと指摘している[42]。同時にアルゴリズムの性能向上が、こうしたImageNetのラベルの誤りに対して過学習している可能性も指摘している[42]。また、1つの画像に複数の物体が写っているケースも多く、それがモデルの性能に影響を与えているという指摘もある[17]。ImageNetは、こうしたバイアスが生じた原因に対処するための取り組みを進めている[43]。 また、ImageNetの画像がデータ収集過程で顔にぼかしを入れていないというプライバシーの問題もある[44]。 他に、人物の顔画像に対するカテゴリに侮蔑的な表現を含むものがあったことを2019年に明らかにし、そうしたカテゴリを除去したデータセットを新たに公開するといったデータ作成上の課題も表出している[45][46]

脚注

[脚注の使い方]

注釈

  1. ^ 物体の周囲に外接するような最小の長方形のこと。物体検出に用いられる。
  2. ^ モデルが予測した分類カテゴリのうち、予測度の高い上位5クラスのどれかが正解と一致していれば分類に成功したとみなし、それ以外を失敗としたときの認識失敗率のこと[10]
  3. ^ 例えば元のImageNetデータベースには犬の犬種が120カテゴリに分類されているが、ILSVRCではそのうち90カテゴリだけが使われている[28]
  4. ^ 畳み込みニューラルネットワークの概念自体は以前から提案されていたが、計算量の問題や学習データの不足で実用化されていなかった[16]

出典

  1. ^ “New computer vision challenge wants to teach robots to see in 3D”. New Scientist. (7 April 2017). https://www.newscientist.com/article/2127131-new-computer-vision-challenge-wants-to-teach-robots-to-see-in-3d/ 3 February 2018閲覧。 
  2. ^ a b Markoff, John (19 November 2012). “For Web Images, Creating New Technology to Seek and Find”. The New York Times. https://www.nytimes.com/2012/11/20/science/for-web-images-creating-new-technology-to-seek-and-find.html 3 February 2018閲覧。 
  3. ^ “ImageNet Summary and Statistics”. ImageNet. 22 June 2016閲覧。
  4. ^ a b c “From not working to neural networking”. The Economist. (25 June 2016). https://www.economist.com/news/special-report/21700756-artificial-intelligence-boom-based-old-idea-modern-twist-not 3 February 2018閲覧。 
  5. ^ a b 斎藤 康毅『ゼロから作るDeep Learning : Pythonで学ぶディープラーニングの理論と実装』オライリージャパン、東京、2016年9月、249頁。ISBN 978-4-87311-758-4。OCLC 959940370。https://www.ohmsha.co.jp/book/9784873117584/ 
  6. ^ a b Russakovsky et al. 2015, p. 4.
  7. ^ a b c Russakovsky et al. 2015, p. 5.
  8. ^ “Papers with Code - ImageNet Benchmark (Image Classification)” (英語). paperswithcode.com. 2022年10月16日閲覧。
  9. ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (June 2017). “ImageNet classification with deep convolutional neural networks”. Communications of the ACM 60 (6): 84–90. doi:10.1145/3065386. ISSN 0001-0782. https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf 24 May 2017閲覧。. 
  10. ^ 裕雄, 片岡「コンピュータビジョンによる動画認識」『Vision』第31巻第1号、2019年、1頁、doi:10.24636/vision.31.1_1。 
  11. ^ a b c d Russakovsky et al. 2015, p. 19.
  12. ^ “Machines 'beat humans' for a growing number of tasks”. Financial Times. (30 November 2017). https://www.ft.com/content/4cc048f6-d5f4-11e7-a303-9060cb1e5f44 3 February 2018閲覧。 
  13. ^ Gershgorn. “The inside story of how AI got good enough to dominate Silicon Valley”. Quartz. 10 December 2018閲覧。
  14. ^ a b He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). “Deep Residual Learning for Image Recognition.”. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 770–778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1. 
  15. ^ Li Liu (2020). “Deep Learning for Generic Object Detection: A Survey”. International Journal of Computer Vision 128: 265. doi:10.1007/s11263-019-01247-4. 
  16. ^ a b Zhao 2019, p. 3213.
  17. ^ a b Tsipras, Dimitris; Santurkar, Shibani; Engstrom, Logan; Ilyas, Andrew; Madry, A. (2020). “From ImageNet to Image Classification: Contextualizing Progress on Benchmarks”. ICML. https://www.semanticscholar.org/paper/From-ImageNet-to-Image-Classification:-Progress-on-Tsipras-Santurkar/951ddc5c7b50a8e6993b98cf618d956a8ff790a1. 
  18. ^ Yun, Sangdoo; Oh, Seong Joon; Heo, Byeongho; Han, Dongyoon; Choe, Junsuk; Chun, Sanghyuk (2021-06). “Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels”. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (Nashville, TN, USA: IEEE): 2340. doi:10.1109/CVPR46437.2021.00237. ISBN 978-1-6654-4509-2. https://ieeexplore.ieee.org/document/9577610/. 
  19. ^ Hempel, Jesse (13 November 2018). “Fei-Fei Li's Quest to Make AI Better for Humanity”. Wired. https://www.wired.com/story/fei-fei-li-artificial-intelligence-humanity/ 5 May 2019閲覧。. 
  20. ^ a b c d Gershgorn (26 July 2017). “The data that transformed AI research—and possibly the world”. Quartz. Atlantic Media Co.. 26 July 2017閲覧。 “Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton.”
  21. ^ Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (2009), “ImageNet: A Large-Scale Hierarchical Image Database”, 2009 conference on Computer Vision and Pattern Recognition, http://www.image-net.org/papers/imagenet_cvpr09.pdf 
  22. ^ Li, Fei-Fei, How we're teaching computers to understand pictures, https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures?language=en 16 December 2018閲覧。 
  23. ^ Russakovsky et al. 2015, p. 8.
  24. ^ “ImageNet Overview”. ImageNet. 22 June 2016閲覧。
  25. ^ a b 日経Robotics(日経ロボティクス). “《日経Robo》ImageNet後継コンテスト、中国ベンチャーMalong社が世界トップに”. 日経Robotics(日経ロボティクス). 2022年1月28日閲覧。
  26. ^ Russakovsky et al. 2015, p. 1.
  27. ^ Russakovsky et al. 2015, p. 3.
  28. ^ Russakovsky et al. 2015, p. 7.
  29. ^ Robbins, Martin (6 May 2016). “Does an AI need to make love to Rembrandt's girlfriend to make art?”. The Guardian. https://www.theguardian.com/science/2016/may/06/does-an-ai-need-to-make-love-to-rembrandts-girlfriend-to-make-art 22 June 2016閲覧。 
  30. ^ Markoff, John (10 December 2015). “A Learning Advance in Artificial Intelligence Rivals Human Abilities”. The New York Times. https://www.nytimes.com/2015/12/11/science/an-advance-in-artificial-intelligence-rivals-human-vision-abilities.html 22 June 2016閲覧。 
  31. ^ Aron, Jacob (21 September 2015). “Forget the Turing test – there are better ways of judging AI”. New Scientist. https://www.newscientist.com/article/dn28206-forget-the-turing-test-there-are-better-ways-of-judging-ai/ 22 June 2016閲覧。 
  32. ^ Russakovsky et al. 2015, p. 18.
  33. ^ Markoff, John (3 June 2015). “Computer Scientists Are Astir After Baidu Team Is Barred From A.I. Competition”. The New York Times. https://www.nytimes.com/2015/06/04/technology/computer-scientists-are-astir-after-baidu-team-is-barred-from-ai-competition.html 22 June 2016閲覧。 
  34. ^ “Chinese search giant Baidu disqualified from AI test”. BBC News. (14 June 2015). https://www.bbc.com/news/technology-33005728 22 June 2016閲覧。 
  35. ^ “Baidu fires researcher involved in AI contest flap”. PC World. (11 June 2015). http://www.pcworld.com/article/2935232/baidu-fires-researcher-involved-in-ai-contest-flap.html 22 June 2016閲覧。 
  36. ^ Gershgorn, Dave (10 September 2017). “The Quartz guide to artificial intelligence: What is it, why is it important, and should we be afraid?”. Quartz. https://qz.com/1046350/the-quartz-guide-to-artificial-intelligence-what-is-it-why-is-it-important-and-should-we-be-afraid/ 3 February 2018閲覧。 
  37. ^ 中山英樹「画像解析関連コンペティションの潮流」『電子情報通信学会誌』第100巻第5号、電子情報通信学会、2017年5月、(377) 373-380、ISSN 09135693、CRID 1520572360426767104。 
  38. ^ “The Viral App That Labels You Isn't Quite What You Think”. Wired. ISSN 1059-1028. https://www.wired.com/story/viral-app-labels-you-isnt-what-you-think/ 22 September 2019閲覧。 
  39. ^ Wong, Julia Carrie (18 September 2019). “The viral selfie app ImageNet Roulette seemed fun – until it called me a racist slur”. The Guardian. ISSN 0261-3077. https://www.theguardian.com/technology/2019/sep/17/imagenet-roulette-asian-racist-slur-selfie 22 September 2019閲覧。 
  40. ^ Crawford (19 September 2019). “Excavating AI: The Politics of Training Sets for Machine Learning”. -. 22 September 2019閲覧。
  41. ^ Lyons, Michael (4 September 2020). "Excavating "Excavating AI": The Elephant in the Gallery". arXiv:2009.01215 [cs.CY]。
  42. ^ a b Beyer, Lucas; Hénaff, Olivier J.; Kolesnikov, Alexander; Zhai, Xiaohua; Oord, Aäron van den (2020-06-12). “Are we done with ImageNet?”. arXiv:2006.07159 [cs]. http://arxiv.org/abs/2006.07159. 
  43. ^ “Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy”. image-net.org (17 September 2019). 22 September 2019閲覧。
  44. ^ Yang, Kaiyu; Yau, Jacqueline; Fei-Fei, Li; Deng, Jia; Russakovsky, Olga (2021-03-14). “A Study of Face Obfuscation in ImageNet”. arXiv:2103.06191 [cs]. http://arxiv.org/abs/2103.06191. 
  45. ^ “Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy”. image-net.org. 2022年1月28日閲覧。
  46. ^ “巨大写真データセット「ImageNet」で攻撃的・差別的なカテゴリー分類タグ付けが判明し人物写真の半数以上を削除”. GIGAZINE. 2022年1月29日閲覧。

参考文献

  • Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej et al. (2015-12). “ImageNet Large Scale Visual Recognition Challenge” (英語). International Journal of Computer Vision 115 (3): 211–252. doi:10.1007/s11263-015-0816-y. ISSN 0920-5691. http://link.springer.com/10.1007/s11263-015-0816-y. 
  • Zhao, Zhong-Qiu (2019). “Object Detection with Deep Learning: A Review”. IEEE Transactions on Neural Networks and Learning Systems (IEEE) 30 (11): 3212-3232. arXiv:1807.05511. doi:10.1109/TNNLS.2018.2876865. 

関連項目


外部リンク

  • 公式ウェブサイト
標準テストアイテム
人工知能
テレビ(テストパターン)
  • SMPTEカラーバー
  • インディアンヘッドテストカード(英語版)
  • テストカードF(英語版)
  • フィリップス PM5544(英語版)
プログラミング言語
データ圧縮
  • カルガリーコーパス(英語版)
  • カンタベリーコーパス(英語版)
3Dコンピュータグラフィックス
機械学習
タイポグラフィ
その他