AbstractClub - 英文技術専門誌の論文・記事の和文要約


[インデックス] [前の年] [次の年]


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.34, No.1


品質尺度を利用したバイオメトリクス識別器融合のための統一フレームワーク
A Unified Framework for Biometric Expert Fusion Incorporating Quality Measures

Poh, Norman Kittler, Josef

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 1, pp. Page(s): 3 - 18 , January 2012

Keywords: Algorithm design and analysis , Authentication , Bayesian methods , Biological system modeling , Distortion measurement , Face , Lighting

本稿では、品質に基づいたマルチモーダルバイオメトリクスの統合のための統一フレームワークを提案する。品質依存の情報融合アルゴリズムにより、いくつかの識別器(バイオメトリクスエキスパート)の出力を動的に組み合わせることで、自動的に導出された(バイオメトリクス)サンプル品質の単一の関数を得る。この目的で利用される品質尺度は、システムの性能に影響を与えることが判っているいくつかの予め定められた指標と、バイオメトリクスの一致度合いを定量化するものである。詐称者と真のユーザを区別するために品質尺度を用いることができないため、品質を考慮した情報統合型識別器を設計することは困難である。これは即ち詐称者と真のユーザが識別不能であることを示している。本稿で我々は、上の品質尺度を効果的に利用する一般化ベイズフレームワークを提案する。本稿で提案するフレームワークが、最近提案された品質に基づく情報融合アルゴリズムのいくつかを包含するものであることを示す。これにはNandakumar et al., 2006; Poh et al., 2007; Kryszczuk and Drygajo, 2007; Kittler et al., 2007; Alonso-Fernandez, 2008; Maurer and Baker, 2007; Poh et al., 2010などの研究成果が含まれる。更に体系だった検討の結果、2つの本問題の代替的定式化も開発した。これにより他の最新の手法と同程度かこれらを上回る性能で、且つ効率的な(より少ないパラメタ数で)実装を行うことができる。このフレームワークは、複数識別器の組み合わせにおける品質の役割の理解を助けるものである。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像統計量を用いた重畳された動く画像の事前情報を用いない分離
Blind Separation of Superimposed Moving Images Using Image Statistics

Gai, Kun Shi, Zhenwei Zhang, Changshui

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 1, pp. Page(s): 19 - 32 , January 2012

Keywords: Cameras , Correlation , Joints , Mathematical model , Pixel , Probability density function , Source separation

本稿では、各レイヤーについての事前情報を用いない複数のソースレイヤーの分離問題を扱う。これらのレイヤーが未知の係数で、且つ未知のレイヤーの動きと線形混合されている。このような混合は、ガラス窓のような透明な媒体を通して写真を撮った場合などに起こりうる。この時、撮影に用いるカメラ及びガラスなどの透明媒体は、各写真で異なった相対位置を取りうる。どのように正しい分離を行うかを理解するために、Labelmeデータセットにおける自然画像の統計的特性を調べた。よく知られた画像グラディエントの希薄性(sparsity of image gradients)を確認しただけでなく、画像グラディエントの新しい共起的挙動パターンを見つけた。これらの統計的特性に基づき、疎な事前ジョイう方を用いない分離アルゴリズムを開発し、これによりレイヤーの動き、及び線形混合係数を推定し、全てのレイヤーを復元する。この方法は、一般的なパラメタ化された動きを扱うことができる。これには移行(translations)、スケーリング(scaling)、回転(rotations)、及び他の変形が含まれる。更に、混合数がレイヤー数よりも少ないような劣決定(underdetermined case)の場合でもレイヤー数は自動的に同定され、全てのレイヤーが復元される。合成画像及び実画像を用いた重畳画像による実験で、本手法の効果を示す。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数時系列の遠隔撮影画像対と確率論的な生成?消滅のダイナミクスによるビル建設モニタリング
Building Development Monitoring in Multitemporal Remotely Sensed Image Pairs with Stochastic Birth-Death Dynamics

Benedek, Csaba Descombes, Xavier Zerubia, Josiane

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 1, pp. Page(s): 33 - 50 , January 2012

Keywords: Buildings , Feature extraction , Image color analysis , Image edge detection , Image segmentation , Pixel , Remote sensing

本稿では、風景画像からのビルの抽出のための確率論的な方法を紹介する。この手法は遠隔撮影された画像対からの変化の検出を利用している。ビルの最適構成を見つけるための大域的最適化プロセスでは、観測データ、事前知識、及び隣接するビルのパーツ間のインタラクションを考慮にいれている。本研究の方法論的な成果は以下の3点である。1)複数時系列のマーク点プロセス(Multitemporal Marked Point Processes)に基づく、新しいオブジェクト変化モデリングアプローチを実装した。このアプローチでは、時間レイヤー間の低次の変化情報と、オブジェクトレベルのビル記述の両方を利用して、変化のあるビルと変化していないビルをそれぞれ認識し、分離する。2)空中撮影画像及び衛星写真リポジトリにおけるデータの不均一性問題に対する回答として、柔軟な階層的フレームワークを構築する。このフレームワークにより様々な要素特徴に基づくモジュールからの様々なビルの外観モデルを生成することができる。3)増大するデータ量により生じる、収束性、最適性、及び計算複雑度の制約を同時に満たすために、高速な複数生成?消滅最適化手法(Multiple Birth and Death optimization technique)を変化の検出のために適用し、新しい不均一統計的オブジェクト生成プロセスを提案する。このプロセスは、低次の画像特徴に基づく高い確率を持つ関連するオブジェクトを生成する。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


平面反射型の幾何
Flat Refractive Geometry

Treibitz, Tali Schechner, Yoav Kunz, Clayton Singh, Hanumant

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 1, pp. Page(s): 51 - 65 , January 2012

Keywords: Atmospheric modeling , Calibration , Cameras , Glass , Lenses , Nonlinear distortion , Pixel

幾何の研究は主に単一視点(single viewpoint: SVP)カメラによる構成を取り扱ってきたが、より一般的な非SVPシステムが注目されてきている。本稿では、遠近法に基づく撮像などのように本質的に非SVP性を持つシステムに関する重要な問題群を取り扱う。このようなシステムはありふれたものであり、例えば水面を覗きこんだ場合などは一般的にこのようになる。本稿では、一般的な平面界面型(flat-interface class)の系を解析する。これによりこの型の問題における視点(焦面: caustic)が特徴付けられ、SVPモデルがこのモデルでは無効であることが証明される。これによりこれまでの研究にあった幾何的な誤差が説明できるだろう。我々が提案する物理モデルは撮像用レンズと、水などの媒体との間の距離によりパラメタ化されている。この物理パラメタは、単一フレーム画像を用いた単純なアプローチにより校正することができる。この過程により、系の構成を直に決めることができる。前記の校正過程により、モデル化された系の歪みの補正に用いられる。このモデルに基づくことで、SVPモデルに基づく場合に比べ、オブジェクトの幾何測量精度を有意に向上させることができる。実世界における実験によりこれらを例証し、更にSVPモデルを用いた場合の誤差をシミュレーションにより検証した。一定距離で利用するならば、SVPモデルも良好な近似となりうることを示す。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


LDAHash:より小規模な記述子を用いた改良型マッチング
LDAHash: Improved Matching with Smaller Descriptors

Strecha, Christoph Bronstein, Alex Bronstein, Michael Fua, Pascal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 1, pp. Page(s): 66 - 78 , January 2012

Keywords: Binary codes , Covariance matrix , Measurement , Optimization , Three dimensional displays , Training , Training data

SIFTに似た局所特徴記述子はコンピュータビジョンのアプリケーションで広く用いられている。例えばコンテンツに基づく検索、ビデオ解析、複製検知、オブジェクト認識、写真によるツーリズム、そして三次元構成がある。特徴記述子は特定の種類の写真的、及び幾何的な変換に対して不変であるように設計することができる。しかしこの方法では、実際に画像が受ける変換は、近似的にしかモデル化できない。それゆえ殆どの記述子は実際のところ近似的にしか上記の不変性を持っていない。また、記述子は通常高次元(例えばSIFTの場合128次元ベクトル)であり、大規模な検索及びマッチング問題において、記述子データの蓄積と検索に課題がある。これらの記述子ベクトルを、結果として得られる表現同士が、ハミング尺度(Hamming metric)で比較することができるハミング空間にマッピングする。この方法で、記述子を短いバイナリ列として表すことで記述子のサイズを低減し、サンプルから記述子の不変性を学習する。提案アプローチの有意性を例証するための大規模な実験による検証を紹介する。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチモーダル話者特定(speaker diarization)
Multimodal Speaker Diarization

Noulas, Athanasios Englebienne, Gwenn Krose, Ben J.A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 1, pp. Page(s): 79 - 93 , January 2012

Keywords: Bayesian methods , Data models , Feature extraction , Hidden Markov models , Joints , Streaming media , Yttrium

話者特定(speaker diarization)のための、音声及び映像モダリティからの情報を統合する新しい確率論的フレームワークを紹介する。このフレームワークは階乗隠れマルコフモデル(factorial Hidden Markov Model: fHMM)の拡張である動的ベイズネットワーク(Dynamic Bayesian Network: DBN)であり、これにより、ビデオ映像中の人物を、音声ストリーム、映像ストリーム、及びオーディオビジュアル空間それぞれにおける観測を生成するマルチモーダルエンティティとしてモデル化する。このフレームワークは様々なコンテキストに対して極めて頑健であり、ビデオ撮影に用いられる機材の位置に関するいかなる前提も用いない。更にこのフレームワークは、期待値最大化(Expectation Maximization)アルゴリズムの利用によるモデルパラメタの取得を行うため、ラベル付き学習データを必要としない。提案モデルを、一般入手可能なデータセットからの2つの会議ビデオ及びニュース放送のビデオに対して適用する。話者特定で得られた結果は、提案フレームワークが単一モダリティ解析を上回る性能を持つこと、最新の音声に基づいた話者特定の性能を向上させることを示している

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


暗視装置におけるコンテキストエンハンスメントのための多重解像度画像統合アルゴリズムの客観的評価:比較検討
Objective Assessment of Multiresolution Image Fusion Algorithms for Context Enhancement in Night Vision: A Comparative Study

Liu, Zheng Blasch, Erik Xue, Zhiyun Zhao, Jiying Laganiere, Robert Wu, Wei

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 1, pp. Page(s): 94 - 109 , January 2012

Keywords: Algorithm design and analysis , Context , Image fusion , Image resolution , Joints , Measurement , Night vision

強調画像評価(enhanced image assessment)のための画像処理技術の比較は、アルゴリズム、手法、もしくは尺度を決めるために極めて重要である。画像融合(image fusion)は、2つの画像のオーバーレイ、解像度の向上による位置決め、画像の組み合わせによる特徴抽出、そしてターゲット認識などの様々な画像強調アプリケーションで利用される手法である。画像融合は多くの地理空間的(geospatial)アプリケーションおよび暗視のためのアプリケーションで用いられているため、これらの技術を理解すること、そして方法の比較検討を行うことは重要である。本稿では、2つの異なる融合スキームのための、6つの多重解像度画像融合アルゴリズムで利用される、12種類の高度な画像融合尺度について、歪みのある入力画像を用いた比較検討を行う。この解析はさまざまな画像組み合わせアルゴリズムや画像処理方法に対して適用することができ、また画像処理エキスパートにより利用されるさまざまなメトリクスを扱うことができる。本稿では、上記の結果を画像強度スペクトラムに基づく画像品質尺度および、相関解析に対して関連付け、画像融合アルゴリズムの客観的評価のための多くの従来技術のまとめを与える。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


注視点顕在性(Interest-point saliency)及び認識アルゴリズムのための実験法におけるセンサーバイアスについての検討
On Sensor Bias in Experimental Methods for Comparing Interest-Point, Saliency, and Recognition Algorithms

Andreopoulos, Alexander Tsotsos, John K.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 1, pp. Page(s): 110 - 126 , January 2012

Keywords: CMOS integrated circuits , Cameras , Detectors , Image color analysis , Lighting , Noise , Pixel

既存アルゴリズム評価方法は、大規模な画像データベースを用いるものがほとんどだが、この画像データを作るための撮像特性について考慮したものは少ない。本稿では、照明条件も変わる場合のカメラのシャッター速度及び電圧ゲインの影響を評価し、さまざまな照明、シャッター速度、及びゲインの組み合わせ条件下における一般的に利用可能なさまざまなビジョンアルゴリズムの感度が顕著に異なることを示す。これらの結果は、ビジョンアルゴリズムの評価に用いられるオフラインデータセットの多くが、顕著なセンサー固有のバイアスの影響を受けており、このためビジョンアルゴリズム評価のための多くの実験手法が、制約の緩い環境へ一般化できるような結果を出せないことを示している。典型的な屋内シーンに対しては、カラーフィルタの様々な色の飽和度(彩度)レベルに簡単に至り、このため、シーン発光のみに排他的に基づくのではなく、そのシーンに現れる各個の色のスペクトラム密度に基づく局所飽和が起こりうる。定常照明下においてさえも、表面方位による短縮効果が特徴検出及び特徴の顕在性に影響を与える。最後に動的及び目的にかなうシャッタースピードおよびゲインの制御により、顕著に信頼性の高い特徴検出を与えることができることを例証する。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


全検索と等価なパターンマッチングアルゴリズムの性能評価
Performance Evaluation of Full Search Equivalent Pattern Matching Algorithms

Ouyang, Wanli Tombari, Federico Mattoccia, Stefano Di Stefano, Luigi Cham, W.K.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 1, pp. Page(s): 127 - 143 , January 2012

Keywords: Algorithm design and analysis , Pattern analysis , Pattern matching , Pixel , Signal processing algorithms , Transforms

パターンマッチングは信号処理、コンピュータビジョン、及び画像及び映像処理で広く用いられている。全検索に等価な検索アルゴリズムは、パターンマッチング処理を高速化することができ、且つ全検索と全く同じ結果を返す。本稿では、この全検索に等価なパターンマッチングのための最新アルゴリズムの解析と比較を提案する。本研究で用いたデータセットとテストを将来のパターンマッチングアルゴリズムのベンチマークとし、最新のアルゴリズムの解析により新たな高速アルゴリズムのアイディアを得ることが目的である。評価したアルゴリズムの拡張についても提案し、これがオリジナルのアルゴリズムを上回る性能を持つことを示す。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


アイデンティティの推論のための確率論的モデル
Probabilistic Models for Inference about Identity

Prince, Simon Li, Peng Fu, Yun Mohammed, Umar Elder, James

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 1, pp. Page(s): 144 - 157 , January 2012

Keywords: Data models , Face , Face recognition , Mathematical model , Noise , Probabilistic logic , Probes

多くの認識アルゴリズムでは「距離に基づく」方法を用いている。これらの方法では各顔画像から特徴ベクトルが導出され、特徴空間における距離の比較によりマッチングを決定する。本稿では、これらと根本的に異なるアプローチについて議論する。我々のアプローチでは、各画像をいくつかの基礎となる原因により生成されたものとみなす。このうちのいくつかは、その画像の元になるもののアイデンティティによるもの(潜在アイデンティティ変数:latent identity variables: LIVs)であり、他のいくつかはそうでないものもありうる。我々のアプローチに基づく認識過程では、2つの顔画像が同じ基礎アイデンティティ原因を持つ確率を評価する。これらのアイディアを具体的にするために、一連の新たな生成的モデルを開発し、個体内、個体間両方の変動を取りいれることができるようにした。また、信号とノイズがそれぞれ別の部分空間で表せるような線形な場合と、任意の顔画像多面体の記述能力があり、且つノイズが位置依存であるような非線形な場合、両方を考慮する。全く異なる視点条件で撮像された顔画像の明示的な比較ができるような、このアルゴリズムの「紐付けされた」バージョンも開発した。我々のモデルが、前面顔認識及び姿勢可変条件下での顔認識両方において、他の最新のアルゴリズムと同等か、それ以上の性能を与えることを示す。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


角度埋め込み:頑健な二次形式指標
Angular Embedding: A Robust Quadratic Criterion

Yu, Stella

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 1, pp. Page(s): 158 - 173 , January 2012

Keywords: Graph theory , Laplace equations , Minimization , Noise , Pixel , Robustness , Surface reconstruction

角度埋め込み(angular embedding: AE)法は、対毎の局所順位のサイズと確信度を元に、大域順位と準大域最適な固有解を見つける。実領域(real domain)における最小二乗埋め込み(Least Square embedding: LS)とは対照的に、複素領域(complex domain)における二次形式の指標(quadratic criterion)として、AEははずれ値に対して強い頑健性を持っている。我々が行ったLSとAEの比較検討の結果、AEの頑健性は、指標の選択に特に依存するものではなく、複素領域における表現の選択に依存するものであることが判った。本研究では、埋め込みが角度空間で符号化される場合において、頑健性の源泉となる非凸性(nonconvex)誤り関数だけでなく、最適性の保証となり、また効率的な計算を可能にするエルミート行列グラフラプラシアン(Hermitian graph Laplacian)も与える。はずれ値がある場合のAEによる高品質な埋め込みは、LSや、これに対応するLâ、ノルム定式化(norm formulation)、そしてこれらの手法を有界にした派生法による品質を遥かにしのぐ。これらの結果により、はずれ値問題を克服する鍵となるのは、埋め込み解に対して追加の拘束条件を課すことではなく、観測量間の不整合に対してペナルティを与えることであることが示される。それゆえAEは、明示的な不整合特性の利用により、はずれ値による影響を排除できることから、統計的順位付け法(statistical ranking method)よりも優れた性能を持つ。またAEは、サイズ-確信度測量空間全域をカバーし、順位付けされたクラスタ組織化の結果を与えることから、スペクトルクラスタリング法と比較しても優れている。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


決定株の連結およびマイクロアレイデータからの学習による特徴選択
Feature Selection with Conjunctions of Decision Stumps and Learning from Microarray Data

Shah, Mohak Marchand, Mario Corbeil, Jacques

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 1, pp. Page(s): 174 - 186 , January 2012

Keywords: Algorithm design and analysis , Classification algorithms , Encoding , Pattern analysis , Training , Upper bound

機能選択学習アルゴリズムの設計目的の一つは、少数の属性に依存し、かつ検証可能な将来の性能を保証している分類を取得することである。同時に二つの目標を成功に導くアプローチは殆どない。我々の知る限り、将来の性能に理論的な限界を与えるようなアルゴリズムは、遺伝子発現データの分類の属性でこれまでに提案されていない。本研究では、我々は信頼性の高い分類を実行するために使用できる属性の小さなサブセットを識別するためにオッカムの剃刀の決定株、サンプルの圧縮、およびPAC-ベイズ学習の設定の組み合わせ(または和)学習の前提を検討する。我々のアルゴリズムは高い競争力を持つ分類精度を持つのに加え、遺伝子の非常に少数の仮説を見つけられることを示す。また他のアプローチとは異なり、将来の性能にタイトなリスクを保証できる。我々は、DNAマイクロアレイデータから遺伝子同定のために提案されたアプローチを適用してよく知られている成功したESのものと我々の結果を比較する。提案されたアプローチは、新しいアルゴリズムや他のドメインでのアプリケーション設計の両方の面で、一般的且つ拡張可能である。

MN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


疎なアルゴリズムは安定しない:ノーフリーランチの定理
Sparse Algorithms Are Not Stable: A No-Free-Lunch Theorem

Xu, Huan Caramanis, Constantine Mannor, Shie

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 1, pp. Page(s): 187 - 193 , January 2012

Keywords: Algorithm design and analysis , Machine learning algorithms , Signal processing algorithms , Stability criteria , Support vector machines , Training

我々は、学習アルゴリズムが必要とする、疎性とアルゴリズムの安定性という2つの特性について考える。これらの2つの特性は共に、より良い一般化につながると信じられている。我々は、これらの2つの性質はお互いに根本的に相反するものであることを示す。疎なアルゴリズムは安定性があり、逆もまたしかりである。したがって、学習アルゴリズムを設計する上で疎性と安定性をトレードオフする必要がある。特に、一般化可能な我々の実験の結果は、ℓ2-正則化回帰が強い安定化特性を有することが知られているため、疎ではない一方で、ℓ1-正則化回帰(Lasso)は、安定していないことを意味する。

MN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像サイン:疎な顕在領域にハイライトを
Image Signature: Highlighting Sparse Salient Regions

Hou, Xiaodi Harel, Jonathan Koch, Christof

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 1, pp. Page(s): 194 - 201 , January 2012

Keywords: Discrete cosine transforms , Gaussian distribution , Humans , Image color analysis , Image reconstruction , Pixel , Prediction algorithms

我々は画像サインと言われる単純な画像記述子を紹介する。我々は疎性信号混合の理論的なフレームワークの中で、この量が画像の前景を空間的に近似することを示す。我々は経験的に画像サインに基づく突極性アルゴリズムを開発することにより、この近似された前景が、視覚的に顕著である領域と重なるかを調べる。この顕在特徴を利用したアルゴリズムでは、BruceとTsotsos[1]ベンチマークデータセットにおいて、人間の注視点を他のアルゴリズムよりも優れた精度、且つはるかに短い実行時間で予測される。本件に関連する実験では、変更正解情報を隠蔽したデータセットを用いて、画像サインによって導出される画像の間の距離が、他の顕在特徴アルゴリズムや、ピクセル単位のアルゴリズムや、GIST[2]記述子などの方法を使用して達成することが出来るよりも人間の知覚距離に近いことを示す。

MN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.34, No.2


回帰ニューラルネットワークに基づく新規な単語同定法
A Novel Word Spotting Method Based on Recurrent Neural Networks

Volkmar Frinken, University of Bern, Bern Andreas Fischer, University of Bern, Bern R. Manmatha, Univ. of Massachusetts, Amherst, Amherst Horst Bunke, University of Bern, Bern

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 2, pp. pp. 211-224 , February 2012

Keywords: Index TermsKeyword spotting, offline handwriting, document analysis, historical documents, neural network, BLSTM.

 キーワードspottingとは、特定のキーワードについて、全ての事例を文書から抽出することを言う。本論文では手書き文書中から、新規なキーワードspottingの方法について述べる。これには自由手書き文書を認識するためにニューラルネットワーク法に基づく手法を用いている。このように、テンプレート不要な自由spottingが可能であり、学習データ中にそのキーワードが出現する必要はない。このキーワードspottingは、回帰ニューラルネットワークと連携したCTC Token Passingアルゴリズムの変形法によって行われた。本手法は古典的な動的時間ワーピング法に基づく手法だけでなく、隠れマルコフモデル法に基づく最新のキーワードspotting法をも凌駕することを実証する。さらに、転写文の生成におけるキーワードspotting法に続いてニューラルネットによる認識性能の効率を解析した。我々は古典的な文章行の認識と比較して、このキーワードspotting法の利点を指摘した。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変形可能な実時間検出器
A Real-Time Deformable Detector

Karim Ali, École Polytechnique Fédérale de Lausanne (EPFL), Lausanne and Electronic Microtechnology (CSEM), Neuchâtel François Fleuret, IDIAP Research Institute, Martigny and École Polytechnique Fédérale de Lausanne (EPFL), Lausanne David Hasler, Electronic Microtechnology (CSEM), Neuchâtel Pascal Fua, École Polytechnique Fédérale de Lausanne (EPFL), Lausanne

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 2, pp. pp. 225-239 , February 2012

Keywords: Image processing and computer vision, machine learning, object detection.

 我々はオブジェクト検出のための新規な学習戦略を提案する。提案された考え方では、多くの均質な姿勢を検出するために一連の検出器集合を学習させる必要はなく、興味ある信号に基づく、先天的に変形可能な単一識別器を学習させるだけで良い。我々は検出器を姿勢別の特徴と姿勢推定器によって、標準的なアダブースト法で学習させる。これによって学習プロセスを多様な特徴を持つ姿勢の選択と組合せに適用できるため、学習用やテスト用に姿勢データにラベル付けをする必要が無い。我々は3種類のデータによってこの考え方を実証する:手持ち撮影のビデオ画像、車の空中撮影画像、および、顔画像。本方法と標準的なブースティング法を、同一の本物の画像データに対して比較し、誤認警報が最大一桁低下することを示す。さらに、本手法と、学習用に注釈付きデータを必要とする最新の手法との比較を示し、同等のレベルであることを示す。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オブジェクト認識のための木構造のコンテキストモデル
A Tree-Based Context Model for Object Recognition

Myung Jin Choi, Massachusetts Institute of Technology, Cambridge Antonio Torralba, Massachusetts Institute of Technology, Cambridge Alan S. Willsky, Massachusetts Institute of Technology, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 2, pp. pp. 240-252 , February 2012

Keywords: Object recognition, scene analysis, Markov random fields, structural models, image databases.

 画像の内容(コンテキスト)情報だけでなく、複数のオブジェクトの特徴を検出し位置決めする技術は、徐々に注目が集まっている。コンテキストモデルは、オブジェクトの位置や特徴の不釣り合いな特徴の組合せを規則することが出来、そのため、情景の意味的に整合性のある解釈を生成できる検出器へと導くことが可能となる。しかし、コンテキストモデルの性能は限られており、従来の手法ではほとんど1?2個のオブジェクトを含む画像でテストされていた。本論文では、異なる種類の多様なオブジェクトを含むデータ集合を紹介し、木構造によって100個以上のコンテキスト情報を認識できる効率的なモデルを提案する。我々のモデルはグローバルな画像特徴や、オブジェクトカテゴリー間の依存度を包含し、局所検出器の出力は統計的に扱われる。このコンテキストモデルはオブジェクト認識性能を改善するだけでなく、情景の整合的な解釈を与えるため、多数のオブジェクトが含まれる画像に対する信頼性の高い照会システムを可能にする。さらに、我がシステムは、画像中に典型的なオブジェクトや質問のあるような場合に、局所検出器だけでは解決できないような認識課題に応用することも出来る。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


適応的多様体学習法
Adaptive Manifold Learning

Zhenyue Zhang, Zhejiang University, Hangzhou Jing Wang, Huaqiao University, Quanzhou Hongyuan Zha, Georgia Instiute of Technology, Atlanta

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 2, pp. pp. 253-265 , February 2012

Keywords: Manifold learning, dimensionality reduction, neighborhood selection, bias reduction, classification.

 多様体学習とは、高次元のデータを低次元でパラメータ化するためのアルゴリズムである。この手法は、局所的に何をイメージしているか、局所的にどの程度の精度を期待しているか、パラメータ化をグローバル化するために局所構造をどのようにパッチ化するか、に強く依存している。本論文では、多様体学習における2つの基本的な事柄についてのアルゴリズムである、(1) 与えられた高次元のデータ点集合において、その連結性を課すときの局所サイズを適応的にどう選ぶか、(2) 多様体の曲率における変動を考慮しての局所的低次元の包埋への適応的なバイアスの縮減だけでなく、データ集合のサンプリング密度の相互作用について、開発した。本手法の有効性は、人工的データと自然画像の両方を用いて、その優位性を実演する。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


曲がった映進対称の検出
Curved Glide-Reflection Symmetry Detection

Seungkyu Lee, Samsung Advanced Institute of Technology, Yongin Yanxi Liu, Pennsylvania State University, State College

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 2, pp. pp. 266-278 , February 2012

Keywords: Symmetry, glide reflection, curved axis, curved surface.

 我々は鏡面対称のコンセプトを一般化して、2Dユークリッド空間内の曲面の映進対称を扱うが、これの古典的な反射対称性は6個の特別な場合の1つに相当する。我々は現実の非分割の2D画像から局所的特徴量に基づいた曲がった映進対称の検出法を提案する。さらに、3D画像に置いて、曲がった映進対称の検出のために、曲がった映進軸検出法を提案する。我々の手法は軸パラメータ空間中における群を発見し、映進対称の型を予め仮定することなく、統計的に優先的な局所映進軸と結び付ける。本手法を、多様な64個のテスト画像集合と1125個のスウェーデンの葉データ画像について最新のアルゴリズムと比較し、有望なそれぞれ80%と40%の平均検出率を得、既存の映進対称検出アルゴリズムを上回る検出率を得た。コンピュータビジョンや、特に非分割画像からの特徴抽出や、正常なものからの偏差の定量化を含む生物医学的画像などが応用される。一般的に入手可能な64個のテスト画像集合について行った。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


方位が可変にできる整合(マッチ)フィルター法の設計と実装化
Design and Implementation of Multisteerable Matched Filters

Matthias Mühlich, Cancontrols, Aachen David Friedrich, RWTH Aachen University, Aachen Til Aach, RWTH Aachen University, Aachen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 2, pp. pp. 279-291 , February 2012

Keywords: Steerable filters, feature detection, junction analysis, orientation estimation, rotated matched filtering, multi-oriented patterns, template equation, trigonometric polynomials, multivariate polynomials, camera calibration.

 特徴追跡、エッジ検出、画像強調、そして、テキスト解析などには任意の方向に見える多方位のパターン検出が必要となる。特徴抽出のための直接的で、回転させた整合フィルター法は計算量が多いが、方向が可変なフィルターを使えば高速化できる。今までのところ、可変フィルター法の応用は一方向に限られている。多くの低位の重要な画像特徴は一方向以上の方位で特徴づけられている。ここに我々は中間調画像に対して任意方向の多方位パターンを効率的に検出するための枠組みを示す。その核となるアイデアは、単一の可変フィルターを適当に組合せ、多方位可変のフィルターを構成することである。方位可変フィルターは、加算と積算で閉じていることを利用する。多変数多項式による多方位可変を導くための設計指針が得られる。さらに、効率的な実装化手法を述べ、角度の変動を抑えるための重み関数について議論する。カメラ校正、植物の根の画像接続解析、L,T,X接続の識別によって、本手法の可能性を実証する。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ベイズ決定則にコスト関数は関与すべきか?
Does the Cost Function Matter in Bayes Decision Rule?

Ralf Schlüter, RWTH Aachen University, Aachen Markus Nussbaum-Thom, RWTH Aachen University, Aachen Hermann Ney, RWTH Aachen University, Aachen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 2, pp. pp. 292-301 , February 2012

Keywords: Statistical pattern recognition, classifier design and evaluation, Bayes decision rule, cost/loss function.

 自動音声認識(ASR)、光学文字読み取り(OCR)、文法律付与(POS)、その他信号列認識課題において、我々は良く知られている矛盾に遭遇する。ベイズ決定則は通常、信号列の誤差が最小化するように決定される。異なる認識システムを比較すると、評価尺度として誤り率を計測する。本研究のトピックは、信号列と記号誤りの関係をベイズ決定則でのコスト関数を解析することであり、その結果、基本的な解析結果が導かれる。整数値のコスト尺度関数による簡単な条件が導かれ、0-1のコストによっても同様な決定が得られ、限定されたコスト分類に導ける。対応する条件は、多くの複雑度が線形の種類別にテストされた。得られた結論は、背景となる分布や、分類課題の仮定をしてない。そうであっても、一般的な解析結果はLevenshtein距離コストによるストリング認識問題のシミュレーションによってなされた。本結果は、初期認識率誤差が大きい時、顕著な改善が期待できるという以前の発見を支持している。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


アドレスー事象センサーによるオブジェクトと人の姿勢のカテゴリー化のための効率的フィードフォワードシステム
Efficient Feedforward Categorization of Objects and Human Postures with Address-Event Image Sensors

Shoushun Chen, Nanyang Technological University, Singapore Polina Akselrod, Yale University, New Haven Bo Zhao, Nanyang Technological University, Singapore Jose Antonio Perez Carrasco, Instituto Microelectronica Sevilla (IMSE), Sevilla Bernabe Linares-Barranco, Instituto Microelectronica Sevilla (IMSE), Sevilla Eugenio Culurciello, Yale University, New Haven

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 2, pp. pp. 302-314 , February 2012

Keywords: Human posture categorization, bio-inspired categorization, event-based circuits, address-event image sensor.

 本論文ではフィードフォワード法によるオブジェクトのカテゴリー化アルゴリズムを提案するのが目的で、特にアドレス事象の時間差画像センサーから実時間でビデオ撮影した人間の姿勢を対象とする。本システムはイベントに基づくハードウェアと生物のひらめきによるソフトウェアの新規な組合せを採用する。イベントに基づく時間差画像センサーを利用して画像列を入力し、これから、ソフトウエアが基本的な視覚認知画像モデルによって呼び起されたサイズと場所に不変な線特徴量を抽出する。検出された線特徴はベクトルの断片として組み合わされる。特徴抽出の後、変形された線分のHausdorff距離分類器と、実時間のクラスターに基づくサイズ・場所に不変なカテゴリー化と組み合される。このシステムは、少数の学習をしただけで、人間の姿勢を平均約90%の正解率でカテゴリー化する。最新の生物のひらめきを使ったカテゴリー化法と比べ、提案手法は必要なハードウェアが少なく、その結果計算量が5倍以上少なくなっており、イベントに基づく回路の実装化として理想的な候補である。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率的ボトムアップ集積と特徴集積法による画像のセグメンテーション
Image Segmentation by Probabilistic Bottom-Up Aggregation and Cue Integration

Sharon Alpert, The Weizmann Institute of Science, Rehovot Meirav Galun, The Weizmann Institute of Science, Rehovot Achi Brandt, The Weizmann Institute of Science, Rehovot and University of California, Los Angeles, Los Angeles Ronen Basri, The Weizmann Institute of Science, Rehovot

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 2, pp. pp. 315-327 , February 2012

Keywords: Computer vision, image segmentation, cue integration, segmentation evaluation.

 画像のセグメンテーションにボトムアップによる集積化法を利用した手法を示す。1つの画像から始まり、次々に画素が付加して行くステップを繰返し、より大きな画像へと進化する。各ステップで隣接領域対を対象に、その領域が対称領域に含まれるかどうかを確率的尺度で評価する。この確率的定式化では、各領域の周囲の局所領域で強度とテクスチャー分布を考慮する。更に、対象領域の幾何形状を考慮して事前確率を併合する。最後に強度とテクスチャー特徴に基づき、"専門家集団"による定式化を組み合わせ事後確率とする。この確率的手法はグラフ粗大化法に併合され画像の階層的なセグメンテーションを完成する。本アルゴリズムの計算複雑度は画素数に比例的であり、ユーザーに合わせたパラメータは不必要である。さらに、我々は、画像セグメント化アルゴリズムに対する新規な評価法を提供し、セグメンテーションアルゴリズムと無関係な人による意味づけの影響を受けない。この新規な手法を利用して、我々の手法をテストし、既存のセグメンテーションアルゴリズムと比較した。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ニューヨーク市の電力格子網のための機械学習
Machine Learning for theNew York City Power Grid

Cynthia Rudin, Massachusetts Institute of Technology Columbia University, Cambridge New York David Waltz, Columbia University, New York Roger Anderson, Columbia University, New York Albert Boulanger, Columbia University, New York Ansaf Salleb-Aouissi, Columbia University, New York Maggie Chow, Consolidated Edison Company of New York, New York Haimonti Dutta, Columbia University, New York Philip Gross, Columbia University, New York Bert Huang, Columbia University, New York Steve Ierome, Consolidated Edison Company of New York, New York

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 2, pp. pp. 328-345 , February 2012

Keywords: Applications of machine learning, electrical grid, smart grid, knowledge discovery, supervised ranking, computational sustainability, reliability.

 電力会社は、予防的保守のための知識発見法と統計的機械学習法から得る所が多い。我々は歴史的電力グリッド(格子)データから、予防的保守のための部品やシステムの失敗リスクをモデル化するための一般的プロセスを紹介する。これらのモデルは保守と修復のための優先付けを支援するために、直接電力会社で利用されてきた。本プロセスの特種版は、以下の目的のために利用された:1) 供給失敗のランク付け、2) 電力網、分岐、終端、変圧器のランク付け、3) 電力供給平均故障期間(MTBF)、4) マンホール事象脆弱性のランク付け。この最も一般性のあるプロセス形態は、歴史的(統計的)で、準実時間で、実時間性の、多様で、ノイズの多い発信源を扱うことが出来、優先付けのための相互検証とブラインドテスト法の最新の機械学習アルゴリズムを包含する。このランク付けリスト以上およびMTBF推定では、業務管理推定のインターフェースがあり、直接企業の企画や決定を支援する:このような一般的モデルのインターフェースにはいくつかの重要点がある:機械学習の特徴はドメインの専門家にとって意味があることと、データ処理の過程に透明性があること、妥当な決定を得るための予測は十分正確であること。予測するために設計されたデータではない、従来の電力格子網に関して、どのように取り組むかの議論を深めよう。これらのデータの未熟さは、プロセスから得られる統計モデルの精度と良い対比をなす。これらのモデルはニューヨークの電力格子網を保守するために十分正確でなければならない。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


コンテキストを利用した画像カテゴリーの発見のためのオブジェクト?グラフ
Object-Graphs for Context-Aware Visual Category Discovery

Yong Jae Lee, University of Texas at Austin, Austin Kristen Grauman, University of Texas at Austin, Austin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 2, pp. pp. 346-358 , February 2012

Keywords: Object recognition, context, category discovery, unsupervised learning.

ラベル付けされていない画像における新たなカテゴリーを発見するために、既存カテゴリーに関する知識がどの程度役に立つのか?教師なし画像カテゴリー発見は、再帰的なオブジェクトの検出を人間の指揮なしで行うために有用である。しかし既存の方法は事前知識を前提とせず、またそれゆえに複数のオブジェクトを含む散乱したシーンに対しては充分な性能を持っていない。本稿では、学習済みの既存カテゴリー情報を用いてより正確なカテゴリー発見を可能にする方法を提案し、未分割のラベル無し画像に対する適応性を推定する困難な課題を取り扱う。本稿で我々は、新たなオブジェクト?グラフ記述子の2つの派生法を導入する。これにより二次元および三次元の未知の領域に関するオブジェクトレベルの共起パターンの空間レイアウトを符号化することができる。またこれらのモデルを用いて画像の既知および未知のオブジェクトの間のインタラクションをモデル化することで、新たな画像カテゴリーをよりよく検出できることを示す。全てのカテゴリーをゼロから調べるのに比べ、我々の手法は既存のカテゴリーから有用なキューを導出して、新たなオブジェクトを同定する。いくつかのベンチマークデータセットを用いた実験で我々手法を評価し、これにより我々の手法が、ベースラインとなる既存の純外観ベースの手法を明らかに超える性能を持つことが示される。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像パーシングのための再帰型分割及び認識テンプレート
Recursive Segmentation and Recognition Templates for Image Parsing

Long (Leo) Zhu, MIT, Cambridge Yuanhao Chen, UCLA, Los Angeles Yuan Lin, Shanghai Jiaotong University, Shanghai Chenxi Lin, Alibaba Group, R&D, Beijing Alan Yuille, UCLA, Los Angeles and Korea University

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 2, pp. pp. 359-371 , February 2012

Keywords: Hierarchy, parsing, segmentation, scene labeling.

本稿では、領域分割とオブジェクト認識のために画像をパーシングする階層的画像モデル(Hierarchical Image Model: HIM)を提案する。HIMは複数の階層レベルにおいて分割と認識を行うことで、画像を再帰的に表現する。これは画像表現、推論、及び学習にとって有利な特性である。HIMは疎密表現(coarse-to-fine representation)を持つことで、大域構造から微細構造までの広い範囲の依存関係を管理することが可能であり、これにより様々なレベルのコンテキスト情報を利用することができる。これは自然言語モデルが動詞句や名詞区などのセンテンス構造を階層表現する方法に似ている。次にHIMの構造により、動的計画法(dynamic programming)に基づく高速な推論アルゴリズムを設計することができる。これは画像ラベリングにおいては世界初の多項式時間アルゴリズムである。第三に、HIMを効率的に学習するために、ラベル付きデータセットによる機械学習法を用いる。一般利用可能なMSRCおよびPASCAL VOC 2007画像データセットを用いた評価により、HIMが他の最新の手法と伍する性能を持つことを示す。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部分顔認識システムに向けて:疎な表現による整列および照明に対する頑健性
Toward a Practical Face Recognition System: Robust Alignment and Illumination by

Andrew Wagner, University of Illinois at Urbana-Champaign, Urbana John Wright, Microsoft Research Asia, Beijing Arvind Ganesh, University of Illinois at Urbana-Champaign, Urbana Zihan Zhou, University of Illinois at Urbana-Champaign, Urbana Hossein Mobahi, University of Illinois at Urbana-Champaign, Urbana Yi Ma, University of Illinois at Urbana-Champaign, Urbana and Microsoft Research Asia, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 2, pp. pp. 372-386 , February 2012

Keywords: Face recognition, face alignment, illumination variation, occlusion and corruption, sparse representation, error correction, validation and outlier rejection.

多くの古典的及び従来の顔認識アルゴリズムは一般公開されているデータセットに対しては良く働くが、実際の認識システムで利用される場合急激に性能が低下する。これはテスト画像における照明変化、画像の整列不良、及び隠蔽を同時に扱わねばならないことが、主な原因である。本稿で我々は、本目的に適した訓練画像のみを選択的に用いて訓練を行う反面、テスト画像に関しては取捨選択をそれほど行わないようなシナリオを検討する。本質的にシンプルな顔認識システムを提案する。このシステムは照明変化、画像整列不良および部分隠蔽に対する高い頑健性と安定性を持つ。本システムは疎な表現から得られるツールを利用しており、これによりテスト画像と訓練画像群との整列をとる。我々のアルゴリズムで利用される注視領域(region of attraction)はMulti-PIEなどの一般公開されているデータセットに対して実験的に計算される。任意のテスト画像を想定するのに充分な照明変化を持つだけの訓練画像群を構成する方法を説明する。我々のアルゴリズムが実際的なテスト環境にお浮いてどのように働くかを評価するために、完備された顔認識システムを実装した。これにはプロジェクターを利用した訓練画像取得システムも含まれる。我々のシステムは、上記の提案の照明変化法により取得された訓練画像を用いることで、現実的な様々な条件下で効率的かつ効果的に顔を認識する。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


結合最適化アプローチにおけるトラッキングと再構成
Tracking and Reconstruction in a Combined Optimization Approach

Olaf Kähler, University of Cambridge, Cambridge Joachim Denzler, Friedrich-Schiller-University Jena, Jena

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 2, pp. pp. 387-401 , February 2012

Keywords: Structure-from-motion, direct reconstruction, constrained tracking, local minima.

動きからの構造復元問題のための新しいアプローチを紹介する。このアプローチでは、対応付けのための検索と幾何的な再構成を別々に扱うのではなく、両者を組み合わせることに特徴がある。この組み合わせにより対応付け検索を助けるための三次元情報の非明示的なフィードバックをなし、トラッキング誤りのための明示的なモデルの構築を必要なくしている。これゆえ、例えば画像の明度にガウシアンノイズが乗っているような場合では、この再構成の結果は最適なものとなる。この組み合わせアプローチを利用した動きからの構造復元問題のための効率的なオンラインフレームワークも併せて紹介する。実験によりこのアプローチを徹底的に評価し、その結果を他の最新の方法と比較する。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Chi2距離のための局所有感ハッシュ処理
Locality-Sensitive Hashing for Chi2 Distance

David Gorisse, ETIS, Cergy-Pontoise Matthieu Cord, Sorbonne Universite, Paris Frederic Precioso, ETIS, Cergy-Pontoise

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 2, pp. pp. 402-409 , February 2012

Keywords: Sublinear algorithm, approximate nearest neighbors, locality sensitive hashing, chi2 distance, image retrieval.

過去10年にわたり、最近傍検索問題(もしくは近似最近傍探索問題)を解くための効率的なデータ構造に基づく多くの新しい有力なアルゴリズムが提案されてきた。劣線形な計算複雑性を持つようなユークリッド空間において近似最近傍を与える局所有感ユークリッドハッシュ(Locality Sensitive Hashing:LSH)アルゴリズムが最もポピュラーであるが、類似性尺度を考えに入れると、Earth-Mover Distanceやχ²距離と比べて、ユークリッド尺度は必ずしもより正確且つ関連性の高い結果を与えるわけではない。本稿では、高次元空間における近似最近傍探索のためのχ²距離を利用した新しいLSH法を紹介する。本稿では特別なハッシュ関数を定義し、この局所有感性を証明する。これにより実画像データベースにおける画像検索のタスクにおいて、我々のアルゴリズムとユークリッド局所有感ハッシュアルゴリズムの比較を行う。この検証の結果、我々のLSH法が従来の手法より格段に優れた精度と同等の速度を同時に実現するか、もしくは同等の精度とより高速な処理速度を同時に実現しているが示される。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


測地散布(Geodesic Diffusion)を用いた準実時間両眼立体視マッチング
Near Real-Time Stereo Matching Using Geodesic Diffusion

Leonardo De-Maeztu, Public University of Navarre, Pamplona Arantxa Villanueva, Public University of Navarre, Pamplona Rafael Cabeza, Public University of Navarre, Pamplona

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 2, pp. pp. 410-416 , February 2012

Keywords: pp. 410-416

適応的重み付けアルゴリズム(adaptive-weight algorithm)は現在の最新の両眼立体視向けの局所マッチングにおいて代表的なアルゴリズムである。しかしこの手法は計算コストが高く、そのため実時間実装には不適切である。本稿では、画像処理で用いられる非等方性散布法からアイデアを得た新しい集合法(aggregation method)を紹介する。本稿で提案する集合アルゴリズムは、計算コストを低減しつつ、前記の適応的重み付けアルゴリズムに類似する解を与える。更に本アルゴリズムのGPUを用いた実装では、準実時間性能が得られる。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.34, No.4


優先権の解析によって、多層構造のデータための仮説生成の加速
Accelerated Hypothesis Generation for Multistructure Data via Preference Analysis

Tat-Jun Chin, The University of Adelaide, Adelaide Jin Yu, The University of Adelaide, Adelaide David Suter, The University of Adelaide, Adelaide

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 4, pp. pp. 625-638 , April 2012

Keywords: Geometric model fitting, robust estimation, hypothesis generation, residual sorting, multiple structures.

ランダムな仮説生成法は、多くのロバストな幾何学的モデル適合法にとって必須のものである。残念ながらこの方法は、特に高次の幾何学的モデルや混合データである場合、計算量が多いと言う問題点がある。仮説サンプリングを高速化するために、根本的に新しい残余ソーティング法から得られる情報を利用する方法を提案する。残余ソーティング法は本来同一モデルから生じた2点の確率を符号化し、従来利用されていたサンプリング強化法のようなドメイン知識(キーポイントマッチングスコアなど)に頼ることなく得られることを示す。更に重要なことに、我々の手法は整合的な構造中のサンプリングを推奨し、その結果、我々のロバストな基準を最大化するすべての最小内部部分集合を急速に生成することが出来る。整合的構造内部でのサンプリングによって多層構造テータを自然に扱える。これは、他の手法においては、しばしば有害となる条件であるが。この結果は、ホモグラフィーで基本的マトリックス推定のような通常の画像処理において、顕著な計算速度の向上を可能にするサンプリング法を提供する。多くのコンピュータビジョンデータにおいて、特に多重構造を有するものでは、現実的な時間内に満足できる検索が可能な手法である。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


能動的な情景セグメンテーション
Active Visual Segmentation

Ajay K. Mishra, University of Maryland, College Park Yiannis Aloimonos, Univ of Maryland, College Park Loong-Fah Cheong, National University of Singapore, Singapore Ashraf A. Kassim, National University of Singapore, Singapore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 4, pp. pp. 639-653 , April 2012

Keywords: Fixation-based segmentation, object segmentation, polar space, cue integration, scale invariance, visual attention.

 注意とは人間の視覚における統合部であり、ここは視的注目の観点から広く研究されている。人間の目は情景中の重要部分に注目するが、全ての注視点は、オブジェクト全体であるか部分であるかに関わらず、任意の形状やサイズの内部に存在する。この注視点がオブジェクトを同定するマーカーであることを利用して、興味ある対象物の切り出しを、直交座標中に頻発するスケールの問題を避けながら、極座標空間中の注視点の周りに最適な閉輪郭を見出すことによって行う。ここに提案するセグメンテーション法は2つの独立したステップによって行う:第1に、全ての視覚的な手掛かりは組み合わされて、情景の確率的境界エッジマップを生成する。第2に、このエッジマップから、与えられた注視点の周りに最適な閉じた境界が見出される。2つの異なるステップが得られることで、中間レベルの手掛かりである領域と、下位の手掛かりであるエッジの間に、単純なフィードバックが可能となる。最後に、我々の実験によれば、一般的な視覚系において、提案手法が確実に自動的セグメンテーションを行う枠組みをもたらすことが示される。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


分断戦略と協調:全体的協調スイッチングによる線形動的システム
Divide, Conquer and Coordinate: Globally Coordinated Switching Linear Dynamical System

Rui Li, General Electric Global Research Center, Niskayuna, NY Tai-Peng Tian, General Electric Global Research Center, Niskayuna, NY Stan Sclaroff, Boston University, Boston

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 4, pp. pp. 654-669 , April 2012

Keywords: Bayesian learning, nonlinear manifold, nonlinear dynamical model, dynamic texture, human motion.

 本研究のゴールは高次元の動画の表現において、簡潔で有益な情報量の表現法を学習することである。概念的には、これには2つの、異なっているが強く関連した課題がある:低次元の多様体を学習し、ダイナミックなプロセスを学習すること。これら2つの課題は一時的に相補的な制約を課し、次元を低下させるための有用な情報を提供しているため、逆に言えば、低次元空間は動的関連を効率的に学習することができる。2つの課題を同時に解くことによって、相互に重要な情報が交換できる。豊富な複雑性を動画から獲得するために非線形モデルが求められているとしたら、学習問題は両課題の非線形性が関連することで、より困難になる。ここでは、課題を分割してそれぞれ解き、それらの解を調和する手法が提案されている。この解は、単純な区分的線形モデルを利用して、非線形の多様体と動的振る舞いを近似している。線形モデル間の相互関係や協調関係はグラフモデルから獲得される。変動ベイズモデル法によって、モデル構造が構築され、パラメータ学習がなされ、これによって、自動的にベイズモデル構造が選択され、その結果、過剰適応(over fitting)が回避される。モデル構造の利用によって、動的プロセスのモデルを過度に単純化することなく、効率的推論と学習アルゴリズムが獲得できる。これと競合する手法による提案モデルの評価が3種の実験で行われた:合成動画による次元の減少と再構成、動的なテクスチャーデータベースを利用したビデオ生成、そして、ベンチマークのデータ集合によってヒトの動きの生成と分離・追跡が。全ての実験において、本提案手法は顕著な性能を示した。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


隠れマルコフによる語彙依存と非依存によるインド手書き文字のオンライン単語認識
HMM-Based Lexicon-Driven and Lexicon-Free Word Recognition for Online Handwritten Indic Scripts

A. Bharath, Hewlett-Packard Labs India, Bangalore Sriganesh Madhvanath, Hewlett-Packard Labs India, Bangalore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 4, pp. pp. 670-682 , April 2012

Keywords: Online handwriting recognition, word recognition, lexicon driven, lexicon free, bag of symbols, symbol order variation, Devanagari, Tamil.

 インドの手書き文字のオンライン認識研究は、欧文、東アジアの文字認識に比べ、未だ初期段階にある。本論文では、特にインドの2つの主要文字であるデバナーガリ文字とタミール文字の2つの課題を取り上げる。以前の手法と異なり、本提案手法は大きく言ってデータ駆動型で文字非依存である。我々は隠れマルコフモデル(HMM)に基づく2つの異なる単語認識法を提案する:語彙依存と語彙非依存。語彙依存モデルでは、文脈中の単語は音声表現から導かれる標準的な記号によるHMMの記号列と見なされる。語彙非依存の手法は新規な手書き文書の記号袋(Bag-of-Symbols)表現法を利用するが、これは記号の順序に依存せず、語彙の刈り込みが可能となる。手書きのデバナーガリ単語サンプルの特徴づけは標準的な書き順であろうと非標準的な書き順であろうと、どちらも、語彙に依存し、非依存の混合認識器は、個々の独立した認識器の性能を優に凌駕する。これに比べ、ほとんどのタミール単語のサンプル特徴では標準的な記号順序を特徴づける。語彙依存の認識器は、非依存の認識器の性能を凌駕する。20,000単語の語彙から得られた認識精度は、2つの認識器が連結した場合、デバナーガリ語で87.13%であり、語彙依存法を利用したタミール語の場合は91.8%であった。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マッチング勾配分布による画像復元
Image Restoration by Matching Gradient Distributions

Taeg Sang Cho, Massachusetts Institute of Technology, Cambridge C. Lawrence Zitnick, Microsoft Research, Redmond Neel Joshi, Microsoft Research, Redmond Sing Bing Kang, Microsoft Research, Redmond Richard Szeliski, Microsoft Research, Redmond William T. Freeman, Massachusetts Institute of Technology, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 4, pp. pp. 683-694 , April 2012

Keywords: Nonblind deconvolution, image prior, image deblurring, image denoising.

 ボケ画像を復元するには通常MAP推定器を利用する:これは品質が低下した画像から綺麗な画像を事後確率最大の条件を付けて復元する。このMAP推定器は、事前に分布が疎な勾配を利用して推定すると、部分部分が滑らかな断片で復元され、視覚的に重要な特徴やテクスチャーが失われる。我々は、これに代わる、繰返し分布重み付け法と呼ばれる、デコンボリューション(deconvolution:ノイズ除去による信号簡略化:訳者注)法によって、参照画像と類似した勾配分布を持つように勾配に対して大域制約をかける。自然画像では、参照分布は画像ごとに変動するだけでなく、1つの画像中でもテクスチャーに依存して変動する。我々は参照分布を入力画像からテクスチャーセグメント毎に直接推定する。我々のアルゴリズムでは中間の周波数の復元が可能である。多数のユーザーの評価で、我々のアルゴリズムは、MAP推定と比較して、復元画像の視覚的現実性が改善されたことが結論付けられる。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


交差ビン尺度による平均シフト追跡器
Mean Shift Trackers with Cross-Bin Metrics

Ido Leichter, Microsoft Research, Haifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 4, pp. pp. 695-706 , April 2012

Keywords: Visual tracking, Mean Shift, cross-bin metrics, earth mover's distance.

 交差ビン尺度は、多様な用途に対するヒストグラム間の距離を測る方法として、ビンとビンの尺度よりはもっと適している。特に、候補ヒストグラムと参照ヒストグラムの2つの特徴量ヒストグラム間の距離(Earth Mover's Distance(EMD)=ヒストグラムを土盛りと見立て、これを移動させる距離)を最小化する視的追跡器(visual tracker)は最近提案された。この追跡器は、従来のMean Shift Tracker(平均シフト距離追跡器)よりロバストであることが示されたが、これにはビンとビンの間の尺度を利用する。フレームごとに、前の追跡器は繰返し候補位置を1画素だけEMDの勾配の反対側にシフトし、改善が無くなれば終了する。この最適化法は、特徴空間における候補特徴密度のクラスタリングだけでなく、候補位置をシフトした後の候補と参照の特徴ヒストグラム間のEMDの計算も含まれる。本論文では、交差ビン尺度も利用した代替追跡器だけでなく、平均シフトの繰返し追跡器に基づく方法も導かれる。提案追跡器は、より簡便で、より高速であるが、その理由は1)1画素だけでは無い、平均シフト法に基づく最適化を利用していること、2)特徴量密度のクラスタリングを制約し、3)多次元空間でのEMD計算の制約をしていることによる。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


曲がった書類画像の計量補正法
Metric Rectification of Curved Document Images

Gaofeng Meng, Chinese Academy of Sciences, Beijing Chunhong Pan, Chinese Academy of Sciences, Beijing Shiming Xiang, Chinese Academy of Sciences , Beijing Jiangyong Duan, Chinese Academy of Sciences, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 4, pp. pp. 707-722 , April 2012

Keywords: Document image analysis, imaging geometry, geometric correction, shape-from-X, mesh warping.

 本論文では単一カメラで撮影された文書画像を復元するための計量補正法を提案する。核となるアイデアはページ表面とカメラの幾何学的関係を利用した等尺性画像メッシュの構築である。我々の手法においては、一般化円筒面(general cylindrical surface:GCS)を利用して曲面ページ形状をモデル化する。少数の適当な仮定のもとに印刷された水平線は消失線対称性を持っていることが示せる。この性質は、遠近投影法における多様なモデルパラメータの推定を束縛するために利用できる。さらに、疑似遠近法的近似を非線形投影の近似として紹介する。GCSの準線と文書アスペクト比の推定のために閉形式の定理集合を紹介する。本手法は画像尺度補正のための直接的な方法である。カメラ位置、視野の方位、文書画像の形状の制約は少ない。本提案手法を評価するため、人工的画像のみならず自然画像を対象に入念な実験を実施した。その結果は本手法の実効性を示した。さらに、公表されているCBDAR2007画像集合に対しても実験した。実験結果は、本手法がOCR精度や修正誤差の観点から、最新手法を凌駕していることを示している。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


教師付きのランキングと関連性フィードバックに基づくマルティメディア検索
A Multimedia Retrieval Framework Based on Semi-Supervised Ranking and Relevance Feedback

Yi Yang, Zhejiang University, Hangzhou Feiping Nie, University of Texas at Arlington, Arlington Dong Xu, Nanyang Technological University, Singapore Jiebo Luo, Kodak Research Laboratories, Rochester Yueting Zhuang, Zhejiang University, Hangzhou Yunhe Pan, Zhejiang University, Hangzhou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 4, pp. pp. 723-742 , April 2012

Keywords: Content-based multimedia retrieval, semi-supervised learning, ranking algorithm, relevance feedback, cross-media retrieval, image retrieval, 3D motion data retrieval.

 我々はマルティメディアの内容解析のための新しいフレームワークを提示する。第1に、局所表現とグルーバルな配置によるランキング、と呼ばれる準教師付きアルゴリズムを提案する。これはデータランキングのためにロバストなラプラシアン行列を学習する。各データポイントにおける局所&グローバルランキングには、その隣接点のランキングスコアを推定するために局所線形回帰モデルが利用される。統一目的関数は、全データ点を局所モデルでグルーバルに整列させたものとして提案されるが、最適ランキングスコアは各データポイントに割り当てられる。第2に、マルティメディアデータ表現を高精度化するために準教師付き長周期(long-term)の関連フィードバック(Relevance Feedback:RF)アルゴリズムを提案する。本長周期RFアルゴリズムは、マルティメディア特徴空間中のマルティメディアデータ分布とユーザーからの過去のRF情報の両方を利用する。トレース(対角成分の和)比最大化問題は定式化され効率的アルゴリズムで解かれる。このアルゴリズムは、異種のメディアの検索、画像検索、3D動画/姿勢データの検索を含むいくつかのマルティメディア内容検索に応用された。4つのデータ集合に対する実験では、精度、ロバスト性、スケール対応性、計算時間に関して、その優秀さを示した。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


歩行者の検出・最新技術の評価
Pedestrian Detection: An Evaluation of the State of the Art

Piotr Dollár, Caltech, Pasadena Christian Wojek, MPI Informatics, Saabrucken Bernt Schiele, MPI Informatics, Saabrucken Pietro Perona, Caltech, Pasadena

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 4, pp. pp. 743-761 , April 2012

Keywords: Pedestrian detection, object detection, benchmark, evaluation, data set, Caltech Pedestrian data set.

歩行者の検出はコンピュータビジョンにおける重要課題の一つであり、いくつかの用途において、生活の質を向上させる可能性を持っている。最近、モノクロ画像中から歩行者を検出するための多くの手法の数が定常的に伸びている。しかし、複数のデータ集合や大きく異なる評価プロトコルが使われているため、直接比較することが難しい。これらの問題を取り扱うために、統一した枠組みにおいて、最新の技術の比較を徹底的に行った。我々の主要な3つの寄与は、1) 大きく、十分な注釈つきの、モノクロで現実的な歩行者検出データ集合と、サイズ、位置、および、街中での歩行者の隠蔽パターン、を言い所に統合し、2) 各フレームの精密な評価手法を提供することによってスケールとオクルージョンに対する評価効率を含むプローブと情報比較が可能となり、3) 6つのデータ集合に亘って、予め学習させた16個の最新技術の性能を評価した。我々の研究によって、最新技術で将来の努力を評価する枠組みを得られる。我々の実験によると、多くの進歩があったにも拘らず、性能にはまだ多くの改善余地がある。特に、低解像度で、部分的隠蔽があるものについての検出は、がっかりさせるものであった。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オブジェクト検出における文脈情報を数量化し移動させる
Quantifying and Transferring Contextual Information in Object Detection

Wei-Shi Zheng, Sun Yat-sen University, China Shaogang Gong, Queen Mary University of London, London Tao Xiang, Queen Mary University of London, London

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 4, pp. pp. 762-777 , April 2012

Keywords: Context modeling, object detection, transfer learning.

 オブジェクト認識において、文脈は対象物の次元減少に重要である。しかし、文脈モデルは、異なる多様な型の情報が、異なる画像において、対象の認識に対する異なる関連性を持って共存しているので、この課題は難しい。従って、文脈モデルを考案し、自動的に計量化し、最も効果的な内容を持った情報を選び、対象オブジェクトを認識することを支援することは極めて重要である。それにもかかわらず、内容情報の多様性とは、ロバストな文脈情報モデルを学習するには、対象の外見モデルを学習するよりもっと沢山の学習集合が必要となることを意味しており、従って現実的に入手できるとは思えない。本研究において、情景の事前のセグメンテーションや文脈のタグ付け無しで、新規な文脈モデルの枠組みを提案した。我々は極座標の文脈記述子を定式化し、これによって多様な形式の文脈情報を表現した。文脈を定量化するため、新規な最大マージンコンテキスト(MMC)モデルを提案し、判別可能な文脈の推定法による文脈情報の直接的有用性と明確性を評価する。さらに、限られた情報から文脈を学習することの問題を明らかにするため、観察に基づく移動学習の考え方を開発した。もっとも、オブジェクトの2つのカテゴリーは全く異なる見かけとなる可能性はあるが、非標的オブジェクトから標的オブジェクトを識別するには、その文脈内容が類似し、あるいは、文脈情報が助けになる可能性もある。そのために、2つの新規な文脈移動学習モデルを提案し、これによって元のオブジェクトクラスから共最大マージン学習の枠組みによる学習を改善する。この方法によってPASCAL VOC2005 and VOC2007を対象に、i-LIDSデータ集合から抽出された手荷物認識と、屋外の監視映像から抽出された自動車認識データ集合を実験した。これによって、我々の提案モデルが文脈情報を定量化し、移動させるのに有効で、他の文脈モデルを凌駕していることを示した。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


決定論的推定のための共用カーネル情報埋め込み
Shared Kernel Information Embedding for Discriminative Inference

Roland Memisevic, University of Frankfurt, Frankfurt Leonid Sigal, Disney Research, Pittsburgh David J. Fleet, University of Toronto, Toronto

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 4, pp. pp. 778-790 , April 2012

Keywords: Latent variable models, kernel information embedding, inference, nonparametric, mutual information

GPLVM(Gaussian Process LVM)や関連手法などの潜在変数モデル(Latent Variable Model: LVM)は、小規模・中規模の訓練集合による学習の際の過剰適合を抑制する助けとなる。しかし、既存の手法はいくつかの問題点がある。1)計算複雑性、2)潜在変数空間(latent space)への、及び同空間からの明示的なマッピングが無いこと、3)マルチモーダル性が無いこと、そして4)上記空間中で利用できる明確な密度分布が無いこと。カーネル情報埋め込み(Kernel Information Embedding: KIE)と呼ばれるLVM法を提案する。これは入力空間と学習された潜在変数空間との間の整合的な共起確率密度(joint density)を定義するものである。本手法は二次曲線の学習曲線を持っており、そのため小規模のデータセットに対しても良好に適用できる。更に本手法の一般化についても紹介する。これは共有カーネル情報埋め込み(shared KIE: sKIE)と呼ばれるもので、これにより複数の入力空間(例えば画像特徴や姿勢)を単一の、共有された潜在変数表現を用いてモデル化することができる。KIEおよびsKIEにより、推測過程において欠落データがあることが許容され、また学習過程において部分的にラベル付けされた学習データを利用できるようになる。整合的な大域モデルを学習するにはデータが大きすぎる場合に、このsKIEを用いて複数の局所オンラインモデルを学習することができることを示す。sKIEを用いて人間の姿勢推論を行う。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


タスク駆動型辞書学習
Task-Driven Dictionary Learning

Julien Mairal, University of California Berkeley, Berkeley Francis Bach, INRIA, Paris Jean Ponce, Ecole Normale Superieure, Paris

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 4, pp. pp. 791-804 , April 2012

Keywords: Basis pursuit, Lasso, dictionary learning, matrix factorization, semi-supervised learning, compressed sensing.

学習済みの辞書の少数の要素の線形結合でデータをモデル化する手法が、機械学習、ニューロサイエンス、及び信号処理の研究で注目されている。自然画像などの信号は疎な表現に基づいており、それゆえ復元タスクに対して前記のモデルが適していることが判っている。このコンテキストにおける辞書の学習は、大規模な行列因数分解を解くのに等しく、これは古典的な最適化手法で処理できるものである。これと同じ手法は既に画像識別などの他の目的の特徴学習のために使われてきた。しかしこれらのタスクに対して辞書を教師付き手法でチューニングすることはより困難であることも判っている。本稿では幅広い種類のタスクに利用される教師付き辞書学習の一般的なフレームワークを紹介する。更に対応付け最適化問題を解くための効率的なアルゴリズムを紹介する。手書き数字認識、デジタルアート同定、非線形原像問題(nonlinear inverse image problem)、そして圧縮センシングにおける実験によって、大規模な構成において我々のアプローチが効果的であることが示される。また併せて本アプローチが教師付きおよび準教師付き識別やデータ回帰問題に適していることも示される。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


M回冪等性(M-Idempotent)を持つ自己双対な形態フィルタ(morphological filters)
M-Idempotent and Self-Dual Morphological Filters

Nidhal Bouaynaya, University of Arkansas at Little Rock, Little Rock Mohammed Charif-Chefchaouni, Institut National des Postes et Telecommunications, Rabat Dan Schonfeld, University of Illinois at Chicago, Chicago

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 4, pp. pp. 805-813 , April 2012

Keywords: Mathematical morphology, spatially-invariant mathematical morphology, duality, idempotence.

本稿では、自己双対且つm回の冪等性を持つ演算子の大規模な解析を行う。(訳者注:数学的な冪等性は1回のフィルタを施した結果とm回同じフィルタを施した結果が同一であることだが、)本稿ではm回冪等性を持つ演算子とは、m回の反復演算で収束する物をさす。また、本稿では格子形態学の一般理論の特殊な重要ケースにフォーカスする。これは空間的変化のある形態学を指しており、空間的変動がある構造要素の幾何的な解釈を与えるものである。全ての増加自己双対形態演算子(increasing self-dual morphological operator)が形態中心(morphological center)とみなせることを示す。形態演算子の冪等性に対する必要条件と十分条件を、同演算子のカーネル表現を利用して与える。m回冪等性を持つ形態演算子のカーネル表現に対して、我々の検討結果を拡張する。次にこのカーネル表現に対する前記の条件により、m回冪等且つ自己双対な形態演算子を構築する。最後に、自己双対性とm回冪等性の重要性を、レーダー画像のスペックルノイズ(speckle noise:斑点状ノイズ)除去を例にして紹介する。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


混合ガウス分布および一様分布の混合によるモデルに基づく学習
Model-Based Learning Using a Mixture of Mixtures of Gaussian and Uniform Distributions

Ryan P. Browne, University of Guelph, Guelph Paul D. McNicholas, University of Guelph, Guelph Matthew D. Sparling, University of Guelph, Guelph

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 4, pp. pp. 814-817 , April 2012

Keywords: Statistical computing, multivariate statistics.

混合要素自体が多変量ガウシアン分布か多変量一様分布であるような、混合分布モデルを紹介する。このモデルはモデルに基づくクラスタリング(モデルに基づく教師なし学習)やモデルに基づく識別(モデルに基づく準教師付き学習)に用いることができるが、我々は更に一般的なモデルに基づく識別フレームワークにフォーカスする。このような設定において、前記の混合モデルを既知のグループメンバーシップを持つ観測を含むデータに対して適用し、未知のラベルを持つ観測のメンバーシップを予測することが、本研究の目的である。またこれと合わせて確率密度推定の例も示す。一般化された期待値最大化アルゴリズムを用いて、前記の方法のパラメタを推定し、これにより混合モデルのさらに混合による識別を与える。個のモデルと、これに関連するパラメタ推定を簡単化するために、いくつかのパラメタを固定しておくことを提唱する。これにより更にコンパクトなモデル表現が可能となる。シミュレーションによる検証をおこなうことで、このモデルにより確率密度分布のバーストに対する耐性向上と、同分布において周辺部が局所的に持ちあがっていることが許容される。更に2つのシミュレーションにより、このモデルの多変量ガウス分布および多変量t分布から得られるデータに対する振る舞いを示す。この新しいアプローチを実データに適用し、様々な拘束条件下における我々のアプローチの性能について議論する。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


方位選択性のある対応付けによる画像情報による距離測量のための2つの効率的な解法
Two Efficient Solutions for Visual Odometry Using Directional Correspondence

Oleg Naroditsky, University of Pennsylvania, Philadelphia Xun S. Zhou, University of Minnesota, Minneapolis Jean Gallier, University of Pennsylvania, Philadelphia Stergios I. Roumeliotis, University of Minnesota, Minneapolis Kostas Daniilidis, University of Pennsylvania, Philadelphia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 4, pp. pp. 818-824 , April 2012

Keywords: Computer vision, structure from motion, visual odometry, minimal problems, Groebner basis.

本稿では、3画像点対応と一つの共通リファレンス方向からの2視点からの相対姿勢問題に対する2つの新しい効率的な解法を紹介する。この3+1点構成の問題を古典的なリファレンス方向に対する消失点を用いた5点問題のためのアルゴリズムの代用として利用するか、重力ベクトルが上で述べたリファレンス方向として利用されるようなロボットやモバイル機器などで一般的に用いられる感性測量に利用することができる。本稿では、簡明な閉形式の解と、数値的な利点を持つ代数幾何に基づく解を与える。更にRANSACおよび1仮説当たり4点の対応による画像情報からの走行距離計算のための新しい方法も紹介する。一連の実データを用いた実験により、仮説検証型画像距離測量の構成における5点法との比較をし、我々のアプローチの性能を示す。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


{¥cal U}ブースト:Universumを用いたブースティング
{¥cal U}Boost: Boosting with the Universum

Chunhua Shen, The University of Adelaide, Adelaide Peng Wang, Beihang University, Beijing Fumin Shen, Nanjing University of Science and Technology, Nanjing Hanzi Wang, Xiamen University, Xiamen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 4, pp. pp. 825-832 , April 2012

Keywords: Universum, kernel methods, boosting, column generation, convex optimization.

Universumデータはターゲット識別問題のクラスに属さず、しかし識別器の訓練のために有用なドメインの事前知識を含むものである。本研究では、利用可能なUniversumデータの利点を基にした新しいブースティングアルゴリズムを設計し、これを{¥cal U}ブーストと呼称する。{¥cal U}ブーストはVapnikの二者択一容量コンセプト(Vapnik's alternative capacity concept)のブースティングを大規模マージンアプローチに対して実装したものである。標準的な正規化項に加え、{¥cal U}ブーストでは、観測された条件の数を最大化することにより学習したモデルの容量を制御する。我々の実験結果は、ラベル付きデータのみを用いるような設定でも{¥cal U}ブーストが標準的なブースティングアルゴリズムに比べ識別精度を向上させることを示している。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.34, No.5


領域境界パターンの動的曲線復元
Active Curve Recovery of Region Boundary Patterns

Mohamed Ben Salah, Institut National de la Recherche Scientifique, Montreal and University of Alberta, Edmonton Ismail Ben Ayed, University of Western Ontario, London and General Electric Canada, London Amar Mitiche, Institut National de la Recherche Scientifique, Montreal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 5, pp. pp. 834-849 , May 2012

Keywords: Image segmentation, boundary patterns, boundary feature distributions, active curves, level sets, similarity measures.

本研究では、レベルセット法の派生手法による領域境界パターンの復元について調査する。本手法では、特徴分布がリファレンス分布と一致する境界に沿うように動的曲線(active curve)を駆動する。カルバック・ライブラー類似度(Kullback-Leibler similarity)およびバタチャリア類似度(Bhattacharyya similarity)の両方を利用できるように提案手法を構成し、これを以下の2つのケースに適用した。?与えられた外形パターンと整合する全ての領域境界の同時復元、?ぼやけた部分境界のある場合の領域分割。前者では画像に基づく幾何特徴を、後者では写真測量的(photometric)な特徴をそれぞれ用いている。各ケースにおいて、対応曲線発展方程式(corresponding curve evolution equation)は、動的曲線における特徴分布に依存する可変の停止機能を持つ測地的動的輪郭(geodesic active contour: GAC)フローとみなすことが出来る。これによりターゲットとなる輪郭の潜在的な大域表現を与える。これにより上記以外の様々な条件における曲線分割を効率的に導出することが出来る。詳細な実験により、提案手法が既存の領域及びエッジに基づく定式化を有意に上回る性能を持つことが示される。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ソーシャルメディアにおけるコンテキストとコンテンツ間のリンクの探索:潜在空間法
Exploring Context and Content Links in Social Media: A Latent Space Method

Guo-Jun Qi, University of Illinois at Urbana-Champaign, Urbana Charu Aggarwal, IBM T. J. Watson Research Lab, Yorktown Heights Qi Tian, University of Texas at San Antonio, San Antonio Heng Ji, The City University of New York, New York City Thomas S. Huang, University of Illinois at Urbana-Champaign, Urbana

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 5, pp. pp. 850-862 , May 2012

Keywords: Context and content links, latent semantic space, low-rank method, social Media, multimedia information networks.

ソーシャルメディアネットワークは、コンテンツとコンテキスト特有のネットワークから構成される。殆どの既存手法はこれらのどちらかをマルチメディアデータマイニングおよび検索のために用いる。実際にはコンテンツ情報とコンテキスト情報の両方がデータマイニングのための情報として用いられるし、これら二つの組み合わせによってのみ、データマイニングおよび処理アルゴリズムの全性能を利用することができる。本稿では、ソーシャルメディアネットワークにおけるコンテキストおよびコンテンツのネットワーク両方のデータマイニングを行うことで、これらの根底にある潜在意味空間(latent semantic space)を発見するための、新しいアルゴリズムを提案する。マルチメディアオブジェクトの意味を潜在特徴ベクトルにマッピングすることで、既存のマルチメディア検索アルゴリズムを利用することができるようになる。マルチメディア分野における最新の潜在空間法と比較して、提案アルゴリズムは、マルチメディアオブジェクト間のコンテンツリンクの基本となっている幾何構造をマイニングすることで、疎なコンテキストリンクという問題を効果的に解消している。特にマルチメディアアノテーションにおいて、アノテーションモデルを直接構築するために、関連するセマンティックコンセプト間の潜在構造に基づいてコンテキスト情報とコンテンツ情報の両方を同時に利用することで、効果的なアルゴリズムを開発することができることを示す。画像に関連付けられたユーザタグがあるFlickrデータセットにおける実験を行った。他の最新のマルチメディア検索手法と比較した場合の我々のアプローチの利点を例示する。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Flickr距離:画像コンセプト間の関連性尺度
Flickr Distance: A Relationship Measure for Visual Concepts

Lei Wu, University of Science and Technology of China, Hefei Xian-Sheng Hua, Microsoft Research Asia, Beijing Nenghai Yu, University of Science and Technology of China, Hefei Wei-Ying Ma, Microsoft Research Asia, Beijing Shipeng Li, Microsoft Research Asia, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 5, pp. pp. 863-875 , May 2012

Keywords: Artificial intelligence, distance learning, machine vision, image analysis.

本論文では、コンセプト間の画像的関連性を測量するためのFlickr距離(Flickr Distance: FD)を提案する。各コンセプトに対して、一群の関連画像をFlickrウェブサイトから入手する。本研究では、各コンセプトはいくつかの状態からなると仮定している。この状態とはつまり、様々な視点、様々なセマンティクスなどであり、これらは潜在トピック(latent topics)として扱われる。次に潜在トピック画像言語モデル(latent topic visual language model: LTVLM)を構築し、これを用いて前記の状態を読み込む。2つのコンセプト間のFlickr距離は、それらのLTVLM間のJensen-Shannon(J-S)情報量として定義される。ウェブ上のテキスト情報に基づく従来のコンセプト距離尺度と異なり、FDは画像情報に基づいている。WordNet距離との比較では、FDはコンセプトコーパスが拡大しても、簡単にスケールアップすることができるという利点がある。Google距離(Normalized Google Distance: NGD)やタグ一致距離(Tag Concurrence Distance TCD)と比べると、FDは画像情報を利用すること、適切にコンセプト関連性を測量できることに特徴がある。FDをマルチメディア関連のタスクに適用し、FDに基づく手法が、NGDやTCDに基づく手法よりも有意に優れた性能を持つことを明らかにした。FD尺度により、コンセプト関連性に関する知識を蓄積するための大規模な画像コンセプトネットワーク(VCNet)を構築する。実験によりFDが人間の知覚により近い結果を与えること、及び実世界での利用においてテキスト情報に基づく手法を上回る性能を持つことが示される。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テクスチャの無いオブジェクトの実時間検出のための勾配レスポンスマップ
Gradient Response Maps for Real-Time Detection of Textureless Objects

Stefan Hinterstoisser, Technische Universitat Muenchen, Garching bie Muenchen Cedric Cagniart, Technische Universitat Muenchen, Garching bie Muenchen Slobodan Ilic, Technische Universitat Muenchen, Garching bie Muenchen Peter Sturm, INRIA Grenoble-Rhone-Alpes, Cedex Nassir Navab, Technische Universitat Muenchen, Garching bie Muenchen Pascal Fua, EPFL, Lausanne Vincent Lepetit, EPFL, Lausanne

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 5, pp. pp. 876-888 , May 2012

Keywords: Computer vision, real-time detection and object recognition, tracking, multimodality template matching.

計算量の多い訓練を必要とせず、且つテクスチャの無いオブジェクトを扱うことのできる、三次元オブジェクトインスタンスの実時間検出のための方法を紹介する。我々のアプローチの根幹は、テンプレートマッチングのための新しい画像表現であり、これは小規模な画像変換に対して頑健であるように設計されている。この頑健性は画像勾配方位の拡散に基づいており、これにより画像解析に際して、全てのありうる画素位置ではなく、そのサブセットのみを試験することができるようになる。またこれにより有限数のテンプレートで三次元オブジェクトを表現することができるようになる。更に、密な奥行き情報が利用可能な場合には、三次元表面法線方位を考慮に入れることで、より高い精度が得られるように本アプローチを拡張することができることを示す。現代のコンピュータのアーキテクチャの利点を利用して効率的且つ非常に弁別能の高い入力画像の表現を構築する方法を示す。この表現では数千のテンプレートを実時間で処理する。多くの実データによる実験により、我々の方法が背景散乱に関して従来の手法よりも遥かに高速且つ頑健であることを示す。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高精度且つ整合的な可視性を持つ、複数ビューからの密な立体視
High Accuracy and Visibility-Consistent Dense Multiview Stereo

Hoang-Hiep Vu, Ecole des Ponts, Paris Patrick Labatut, Ecole des Ponts, Paris Jean-Philippe Pons, Ecole des Ponts, Paris Renaud Keriven, Ecole des Ponts, Paris

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 5, pp. pp. 889-901 , May 2012

Keywords: Dense multiview stereo, surface reconstruction, large-scale scenes, minimum s-t cut, deformable mesh.

Seitzらによる初期の比較研究にはじまり、密なマルチビュー立体視法は着実にその数を増やしてきている。しかし密なマルチビュー立体視には多くの制約があり、そのため制御環境での撮像が保証されない屋外シーンに対しては、これらの手法の多くが不適切である。本研究で提案する手法は、これらの制約を回避するような密なマルチビュー立体視の全過程を持っており、これにより精度を犠牲にすることなく、大規模なシーンを取り扱うことができる。本手法のなかで重要な2つの処理段のおかげで、高稠密な再構成情報を非常に短い時間で計算することができる。この処理段とは、適応的ドメインのs-tカット最適化の最小値により、はずれ値を疑似密度点雲(quasidense point cloud)から除くための頑健且つ効率的にフィルタし、且つ画像拘束条件を取り込むことで初期表面を再構成する。更にメッシュに基づく変分法による高精細化により微小構造を取り込み、写真としての整合性、正則化、及び適応的解像度設定を取り扱う。広範な種類のシーンで、提案処理を試験した。これには、従来手法でよく用いられてきた実験室設定において撮像されたコンパクトな物体の画像から、屋外における、建物、風景、及び文化遺産の画像まである。提案システムによる再構成の精度を、Strechaらにより提案された密なマルチビュー法のベンチマークに基づいて測量した。この結果は、提案手法が現在の最新の手法と互角以上の性能を持っていることを示している。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像認識のための全体論的コンテキストモデル
Holistic Context Models for Visual Recognition

Nikhil Rasiwasia, University of California at San Diego, La Jolla Nuno Vasconcelos, University of California at San Diego, La Jolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 5, pp. pp. 902-917 , May 2012

Keywords: Computer vision, scene classification, context, image retrieval, topic models.

シーンおよびオブジェクトの共起確率に基づくコンテキストモデル化のための新しいフレームワークを提案する。このモデル化手法は極めてシンプルなものであり、オブジェクトの外見情報を用いた頑健な識別器が利用できることを前提としている。各画像は、そのコンテキストモデルの組みに関する事後確率として表現される。このコンテキストモデルは2層確率モデルによるbag-of-features画像表現に基づいている。第一の層は画像をセマンティック空間で表現する。この空間の各次元は各コンセプトのオブジェクト外見に基づく事後確率を表している。画像パッチを識別する際の本質的な不明確性のために、前記の表現は、コンテキスト情報に含まれるノイズを考慮したものでなければならない。第二層では、このノイズがある環境下での頑健な推論を可能にするために、前記のセマンティック空間における各コンセプトの分布をモデル化する。提案システムの徹底的且つ体系的な試験を行った結果、同システムにより自然画像のコンテキスト「gist」を取り込むことができることが示された。シーン識別実験により、このコンテキスト識別器が、従来の選択に過敏な外見に基づく方法を上回る精度を持つことが示された。ベンチマークデータセットを用いたシーン識別及び画像検索タスクで既存手法と比較することで、提案アプローチのコンテキストモデリングの効果を更に示す。全てのケースにおいて、提案アプローチがより優れた結果を示した。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


写真測量的なエッジ重みづけによる色の恒常性の向上
Improving Color Constancy by Photometric Edge Weighting

Arjan Gijsenij, Alten PTS, Eindhoven Theo Gevers, University of Amsterdam, Amsterdam Joost van de Weijer, Universitait Autonoma de Barcelona, Barcelona

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 5, pp. pp. 918-929 , May 2012

Keywords: Color constancy, illuminant estimation, Gray Edge, edge classification.

エッジに基づく色の恒常性の手法は画像から得られる派生的情報を用いて光源を推定するものである。しかし実世界の画像には、素材、影、ハイライトなどの様々なタイプのエッジが存在する。これら様々な種類のエッジは、光源推定に対してそれぞれ特徴的な影響を与える。それゆえ本稿では、エッジ情報に基づく色の恒常性手法の性能に対する、エッジ種類の影響に関する大規模な解析を行う。まずエッジ情報に基づく分類法により、エッジ種類をその測光的特性(例えば材質、影の幾何的特性、及びハイライト)に従って分類する。次に様々な種類のエッジを用いたエッジ情報に基づく色の恒常性の性能評価を行う。この性能評価により明らかになるのは、鏡面エッジおよび陰影部のエッジは、材質によるエッジよりも光源推定に対しての利用価値が高いということである。前記の種類のエッジをより重視して光源推定を行う(反復的な)重み付きグレーエッジアルゴリズム(Gray-Edge algorithm)を提案する。制御環境下で撮像された画像を用いた実験により、本稿で提案する、ハイライト情報に基づく反復型重み付きグレーエッジアルゴリズムにより、メディアン角度誤差を約25%低減できることを示す。非制御環境下で撮像された画像に対してはこの低減は通常のエッジ情報に基づく色の恒常性手法に比べ11%であった。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


両眼立体視における意味のある対応
Meaningful Matches in Stereovision

Neus Sabater, ENS, CNRS-CMLA, Cachan Andrés Almansa, Telecom ParisTech, Paris Jean-Michel Morel, ENS, CNRS-CMLA, Cachan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 5, pp. pp. 930-942 , May 2012

Keywords: Stereo vision, block matching, number of false alarms (NFA), a contrario detection.

本稿では、高い信頼性で画像対中にある2つのブロックの対応を決めるための統計的手法を紹介する。この手法により、選択されたブロック対応が「偶然により」決定されることが無いことを特徴とする。この新しいアプローチは、その画像自身から学習された画像ブロックに対する簡明だが信頼性の高い統計的背景モデルの定義に基づいている。このモデル下では、一画像中に(平均して)一定数以上の間違った対応が起きないことが論理的に保証されている。本手法では、この一定値(誤り警報数)が唯一のパラメタである。更に各対応に関連づけられた誤り警報数により、その信頼性が判る。このcontrario(不整合)ブロックマッチング法では、周期的に表れるオブジェクトがある場合には誤り対応を排除することはできない。しかしこれは、パラメタレスの自己類似閾値により補助することができる。実験により、提案手法が、非同時立体視において車両および歩行者の隠蔽および不整合な動きを検出できることが示される。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


対応付けを用いない非線形オブジェクト位置決め
Nonlinear Shape Registration without Correspondences

Csaba Domokos, University of Szeged, Szeged Jozsef Nemeth, University of Szeged, Szeged Zoltan Kato, University of Szeged, Szeged

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 5, pp. pp. 943-958 , May 2012

Keywords: Image registration, diffeomorphism, nonlinear transformation, planar homography, thin plate spline, shape matching.

本稿では、微分同相写像のパラメタ推定のための新しいフレームワークを提案する。この推定では、既知のオブジェクト形状とノイズを含む観測データとの整列を行う。従来の位置決め法はまず形状間の対応関係を確立し、その上でこれらのランドマークデータを用いて変形パラメタを計算する。非線形方程式を持つ系の解に対応する問題に立ち戻って考える。このような系では整列変形のパラメタが直接得られる。提案手法は、対応関係を構築することなく、任意の微分同相的変形を復元するための一般的フレームワークを与える。提案手法は実装が容易で、変形強度に対して敏感ではなく、且つ分割誤りに対して頑健である。本手法をいくつかの一般的に用いられる変形モデルに適用した。提案フレームワークの性能は、大規模な合成データセットおよび様々なアプリケーションにおいて示されている。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部分的教師付き話者クラスタリング
Partially Supervised Speaker Clustering

Hao Tang, University of Illinois at Urbana-Champaign, Urbana Stephen Mingyu Chu, IBM T.J. Watson Research Center, Yorktown Heights Mark Hasegawa-Johnson, University of Illinois at Urbana-Champaign, Urbana Thomas S. Huang, University of Illinois at Urbana-Champaign, Urbana

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 5, pp. pp. 959-971 , May 2012

Keywords: Speaker clustering, partial supervision, distance metric learning.

コンテンツに基づくマルチメディアインデキシング、検索、処理、及びデータベース化では、メディアコンテンツ(画像、音声、ビデオ、テキスト、その他)の構造化と、コンテンツのアイデンティティを情報の各セグメントに対して関連付けることが必要となる。本稿では、特に話者クラスタリング問題を取り扱う。これは音声信号系列における全ての会話の発話を、その話者に関連付けるタスクである。部分的教師付き話者クラスタリングに対する完全な対応を提供する。これは、教師なし話者クラスタリング過程を補助するために話者に対する事前知識全般を利用することを意味する。独立した訓練データセットの利用により、話者クラスタリング処理の各処理段で、この事前知識をエンコードする。これには1)話者判別のための音響的特徴の変換の学習、2)一般的な話者事前確率分布モデル(universal speaker prior model)の学習、3)話者判別的部分空間の学習、もしくはこれに等価な話者判別的な距離尺度の学習。混合ガウシアンモデル(Gaussian Mixture Model: GMM)平均スーパーベクトル表現(supervector representation)の方向性のある散布特性(scattering property)により表される、スーパーベクトル表現について検討する。GMM平均スーパーベクトル空間における話者クラスタリングのために、ユークリッド距離尺度の代わりとしてコサイン距離尺度を用いることで、前記の特性を利用する。このコサイン距離尺度に基づく判別分析を行うことを提案する。これにより、線形球面判別分析(linear spherical discriminant analysis: LSDA)と呼ばれる新しい距離尺度学習アルゴリズムが与えられる。本稿で提案するLSDAの定式化は、緻密なグラフ埋め込み一般化次元削減フレームワーク内で系統立てて解くことができることを示す。GALEデータベースを用いた話者クラスタリング実験により1)GMM平均スーパーベクトル表現に基づく我々の話者クラスタリング手法とベクトルに基づく距離尺度が、従来の「音響的特徴の集合(bag of acoustic features)」表現と統計的モデルによる距離尺度に基づく話者クラスタリング手法を上回る性能を持つこと、2)我々が提唱するコサイン距離尺度の利用は、一般的に用いられているユークリッド距離尺度に比べ、話者クラスタリング性能において、統計的に一致(サンプルが大きくなるについて真の値に近づくこと)していること(consistent increase)、3)我々の部分的教師付き話者クラスタリングコンセプトおよびその戦略は、ベースラインアルゴリズムに比べて優位に話者クラスタリング性能を向上させること、4)本稿で提案するLSDAアルゴリズムは、他の最新の話者クラスタリング法に匹敵する性能を持つこと、が示される。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ライトフィールドカメラ:被写界深度の拡張、エイリアシング、及び超解像度処理
The Light Field Camera: Extended Depth of Field, Aliasing, and Superresolution

Tom E. Bishop, Heriot-Watt University, Edinburgh Paolo Favaro, Heriot-Watt University, Edinburgh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 5, pp. pp. 972-986 , May 2012

Keywords: Computational photography, superresolution, deconvolution, blind deconvolution, multiview stereo, shape from defocus.

ポータブルなライトフィールドカメラ(light field: LF camera)には、通常のカメラを超えた機能性がある。この種のカメラでは一回の撮像によるデータから、デジタル画像処理によるフォーカス位置の変更(再フォーカス)や三次元情報の再構築ができる。LFカメラは、通常カメラより広い被写界深度範囲の情報を取得するが、これに加えて高い解像度でのディテールを再構成する能力も持っている。実際のところ、ボケ量に制限のある薄い平面以外ではLFカメラにおける全ての被写界深度情報は近似的なものである。つまりこれらの被写界は本質的に通常カメラの逆になっている。LFカメラが成功をおさめるために重要なのは、空間解像度と画角解像度のトレードオフとしてのライトフィールドのサンプリング方法と、エイリアシングがライトフィールドに与える影響である。抽出された低解像度画像に従来のマルチビューステレオ法を適用するだけでは、エイリアシングの影響で再構成に誤りが生じることを示す。この課題を陽な画像構成モデル(image formation model)を用い、ランバート及びテクスチャ保存事前確率(texture preserving prior)を利用することで、シーンの奥行き情報と超解像度化されたテクスチャを変分法的ベイズネットワークにおいて再構成することができること、そしてマルチビュー情報を統合することでエイリアシングを除去できることを示す。提案手法を合成画像と我々のLFカメラで撮像した実画像を用いて評価し、これが他のシステムを凌駕する性能を持つことを示す。

MN/TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所時空間動きパターンを用いた、極端に混雑したシーンにおける歩行者追跡
Tracking Pedestrians Using Local Spatio-Temporal Motion Patterns in Extremely

Louis Kratz, Drexel University, Philadelphia Ko Nishino, Drexel University, Philadelphia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 5, pp. pp. 987-1002 , May 2012

Keywords: Tracking, video analysis, crowded scenes, spatio-temporal motion patterns, hidden Markov models

監視、シーン理解、行動解析などの多くのコンピュータビジョンのアプリケーションにおいて、歩行者追跡は必要不可欠なものである。混雑したシーンのビデオにおける歩行者追跡は、考慮しなければならない人数が多いことと、それにより部分隠蔽が頻繁に発生することから、極端に難しい課題となっている。各歩行者の動きは群衆全体の動きに寄与するものであり、(この群衆の動きはつまり、ビデオ全体におけるシーンの構成要素の集合的な動きである。)時空間的に変化する構造化されたパターンに基づくものである。本稿では群衆の動きに関する時空間モデルを用いた、混雑したシーンのビデオにおける歩行者追跡のための新しいベイズフレームワークを紹介する。この群衆の動きを、局所的な時空間動きパターンにより訓練された隠れマルコフモデルの組みにより表す。このパターンとは、歩行者がビデオの局所的な時空間領域を歩くときの歩行者の動きパターンである。このユニークな表現を用いることで、ビデオ中の化野速フレームに基づいて、追跡対象の歩行者が次に見せるであろう局所時空間動きパターンを予測する。次に、極端に混雑したシーンのビデオ中の歩行者の動きを追跡するための事前確率として、この予想を用いる。群衆の動きを上手く利用する我々のアプローチにより複雑なシーンにおける追跡が可能になることを示す。このようなタスクは他のアプローチにとっては極めて難しい。

MN/TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像情報に基づく歩行者群衆の小グループの解析
Vision-Based Analysis of Small Groups in Pedestrian Crowds

Weina Ge, GE Global Research, Niskayuna Robert T. Collins, Penn State University, University Park R. Barry Ruback, Penn State University, University Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 5, pp. pp. 1003-1016 , May 2012

Keywords: Pedestrian detection and tracking, pedestrian groups, crowd dynamics.

最新のアルゴリズムに基づいて開発し、人間の集合的振る舞いの社会工学的モデルからアイディアを得た歩行者検出と複数オブジェクトの追跡により、一緒に行動する少人数のグループを自動的に検出する方法を開発した。これらのグループは一般化された対毎の近接性と速度に関する対称型ハウスドルフ距離を用いたボトムアップの階層的クラスタリングにより発見される。提案手法を、実世界の歩行者シーンのビデオを用いて定量的及び定性的に検証した。人間による判断結果を付けた正解情報が利用可能な場合に、群衆の中の小グループの検出に関して、提案システムの結果と正解情報との間で、充分な精度での統計的な一致が見られた。我々の 自動化された群衆解析結果により、歩行者グループの外観を決める興味深いパターンを見つけ出した。これらの発見は、群衆ダイナミクスに関する現在の研究を助けるものであり、例えば非難経路計画や、群衆パニック時の実時間状況把握などを改良する示唆を与えるかもしれない。

MN/TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


サポートベクトルマシンを用いた密度に基づく多特徴背景削除
Density-Based Multifeature Background Subtraction with Support Vector Machine

Bohyung Han, POSTECH (Pohang University of Science and Technology), Pohang Larry S. Davis, University of Maryland, College Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 5, pp. pp. 1017-1023 , May 2012

Keywords: Background modeling and subtraction, Haar-like features, support vector machine, kernel density approximation.

背景モデリングと背景削除は、固定カメラにより撮像されたビデオ映像からのオブジェクト抽出において必要となる手法であり、また、様々な高次コンピュータビジョンアプリケーションにおいて重要な前処理である。しかしこの問題に対して利用性の高い特徴や二値分離アルゴリズムについて充分な研究が行われてこなかった。複数の特徴を用いた画素対による背景モデリング及び背景削除法を提案する。この方法は生成的手法及び判別的手法を組み合わせて用いることで識別を行う。このアルゴリズムでは、各画素の時空間変化を取り扱うために、色、グラディエント、及びHaarの二次元ウェーブレット特徴を統合して用いる。画素対の生成的背景モデルを各特徴に対して効率的に計算するために、カーネル密度近似(Kernel Density Approximation: KDA)を用いる。背景削除は、特徴組からなる背景尤度ベクトルに対するサポートベクトルマシンを用いて判別的に行われる。本稿で提案するアルゴリズムは陰影、照明変化、及び背景の空間変化に対して頑健である。アルゴリズムの性能を、他の特徴の組み合わせとモデリング手法に基づくカーネル密度法と定量的・定性的に比較する。

MN/TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


球状フローダイバージェンスを用いた着陸とドッキングのための統一された戦略
A Unified Strategy for Landing and Docking Using Spherical Flow Divergence

Chris McCarthy, Australian National University, Canberra Nick Barnes, Australian National University, Canberra

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 5, pp. pp. 1024-1031 , May 2012

Keywords: Robot vision, visuo-motor control, visual navigation, optical flow.

本稿では、ドッキングと着陸のための、新しい、統一されたコントロール則の設計を可能にする、オプティカルフローダイバージェンスから導出される画像に基づいた制御入力情報を紹介する。ダイバージェンスに基づいた、コンタクトまでの時間の推定は良く研究された分野であり、画像情報に基づく制御においてダイバージェンスを利用するためには、表面方位と自己運動(egomotion)のいずれか一方、もしくは両方に関する事前知識を前提とする。一般的な動きという条件のもとで、任意の方位の表面へのアプローチタスクをサポートできる直接観測可能な視覚情報は存在しない。我々の方法の中心的なアイディアは、視野球面(最大のダイバージェンス)における、最大フロー場ダイバージェンス(maximum flow field divergence)の利用である。最大ダイバージェンスの位置を決める要因となる運動学的な特性を証明し、併せて最大ダイバージェンスが、近接の時間計量を与えることを示す。この情報を基に、動きからの構造復元を用いることなく、任意方位の平面に対する接近速度と接近角度の両方を標準化するための新しい制御則を提案する。この戦略を、モバイルプラットフォームのドッキング・着陸動作の閉ループ制御における実画像系列を用いたシミュレーションで試験した。

MN/TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カーネルK-meansクラスタリングのための最適化データ融合
Optimized Data Fusion for Kernel k-Means Clustering

Shi Yu, Katholieke Universiteit Leuven, Leuven Léon-Charles Tranchevent, Katholieke Universiteit Leuven, Leuven Xinhai Liu, Katholieke Universiteit Leuven, Leuven Wolfgang Glänzel, Katholieke Universiteit Leuven, Leuven Johan A.K. Suykens, Katholieke Universiteit Leuven, Leuven Bart De Moor, Katholieke Universiteit Leuven, Leuven Yves Moreau, Katholieke Universiteit Leuven, Leuven

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 5, pp. pp. 1031-1039 , May 2012

Keywords: Clustering, data fusion, multiple kernel learning, Fisher discriminant analysis, least-squares support vector machine.

本稿では新しい最適化されたカーネルk-meansアルゴリズム(Optimized Kernel K-means: OKKC)を用いてクラスタリング解析のための複数のデータソースを組み合わせる。このアルゴリズムは最小化フレームワークを用いてクラスタメンバーシップ関数とカーネル係数を非凸問題として最適化する。本稿で提案するアルゴリズムでは、クラスタメンバーシップ関数を決める問題と、カーネル係数を決める問題は、全て同じレイリー商目的関数(Rayleigh quotient objective)に基づくものである。OKKCはこれまでの研究で提案されてきた手法よりも単純な手順で解くことができ、計算複雑性も低い。合成データ及び実データの合成アプリケーションを実験的に検討した結果、提案アルゴリズムがこれまでの手法に匹敵する性能を持つこと、更に大規模なデータセットに対してはより効率的な計算手法であることが示された。

MN/TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.34, No.7


自由エネルギーのスコア空間:判別的識別器を用いた生成情報の利用
Free Energy Score Spaces: Using Generative Information in Discriminative Classifiers

Alessandro Perina, Microsoft Research, Redmond Marco Cristani, University of Verona, Verona, and Italian Institute of Technology, Genova Umberto Castellani, University of Verona, Verona Vittorio Murino, University of Verona, Verona, and Italian Institute of Technology, Genova Nebojsa Jojic, Microsoft Research, Redmond

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 7, pp. pp. 1249-1262 , July 2012

Keywords: Hybrid generative/discriminative paradigm, variational free energy, classification.

データの生成的モデルから導出されたスコア関数は、各データサンプルの固定次元の特徴ベクトルを備えている。データサンプル自体の長さ(会話長や他の連続データ長)は異なっているかもしれないが、データ生成プロセスの長さに基づくスコア関数として、高度に情報的な空間における固定長の長さのベクトルとして、典型的には「スコア空間」として存在する。判別的識別器(discriminative classifiers)は近似的に選択されたスコア空間において、対応する尤度生成関数に基づく識別器や、標準的特徴抽出器を使ったものより高い性能を示して来た。本論文では、関連する生成モデル自由エネルギーを利用した新規なスコア空間を示す。結果として得られる自由エネルギースコア空間(Free Energy Score Space: FESS)は、多様なレベルでデータの潜在構造を考慮し、識別効率を少なくとも、同じ生成モデルに基づき、同じ事後分析に基づく因子分解と同じレベルの識別効率が得られる。また、いくつかの典型的画像解析や生物画像解析の応用において、FESSの純粋な生成手法に関して、識別と生成モデルを組み合わせた以前の手法に比較して、これを凌駕することを報告しておく。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


視覚的曲線補間のための接束理論
A Tangent Bundle Theory for Visual Curve Completion

Guy Ben-Yosef, Ben-Gurion University of the Negev, Beer-Sheva Ohad Ben-Shahar, Ben-Gurion University of the Negev, Beer-Sheva

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 7, pp. pp. 1263-1280 , July 2012

Keywords: Visual completion, curve completion, tangent bundle, inpainting.

視覚的に曲線を補間することは基本的な知覚メカニズムであり、これによって、観察された輪郭線の欠落(隠蔽個所のような)部分は補間される。以前の曲線補間の研究は、一般的に公理的アプロ?チに基づき、まず望ましい知覚的・幾何学的性質を自明の理によって定義し、その上で、これが数学的に曲線であることを満たす数学的探求がなされる。しかし、心理的にこのような望ましい性質を決定することは困難で、研究者たちは何がこれに相当するかを議論している。その代わりに、曲線補間が、単位接束、R2×S1 (Rの2乗×Sの1乗)の初期の視覚プロセスの問題の定式化であり、初期視覚皮質(V1)での処理の単純化し、基本的原理の有用性を促進する。これにより後段の処理で視覚特性に基づく処理を施す代わりに、視覚特性自体が導出される。ここで、変動項における問題を定式化する代わりに、理論的解析がなされ、続いてこれら曲線の再構成のために実用的なアルゴリズムが定式化される。次に、良く知られた知覚の原理を用いて、上記の導出された視覚特性を検証し、知覚問題に関する我々の理論がどのように多くの知覚問題を予測する。最後に、様々な曲線補間法を例証し、心理物理学的データや他の補間モデルとの比較を与える。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


BRIEF:局所的バイナリー記述子による超高速計算
BRIEF: Computing a Local Binary Descriptor Very Fast

Michael Calonder, EPFL, Lausanne Vincent Lepetit, EPFL, Lausanne Mustafa Özuysal, EPFL, Lausanne Tomasz Trzcinski, EPFL, Lausanne Christoph Strecha, EPFL, Lausanne Pascal Fua, EPFL, Lausanne

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 7, pp. pp. 1281-1298 , July 2012

Keywords: Image processing and computer vision, feature matching, augmented reality, real-time matching.

 バイナリー記述子は、特徴点を超高速に比較し、比較的小さなメモリーで計算する手段として有望になりつつある。このための典型的な計算手法は、先ずSIFTのような浮動小数点法を利用し、次にこれを2値化する方法である。本論文では、単純な強度差テスト法に基づく、BRIEFと呼ばれる2値記述子を直接計算することができることを示す。結果としてBRIEF法は、構成段もマッチング計算時間も極めて高速である。標準的なベンチマークのSURFやSIFTと比較すると、BRIEFは認識精度を保ちながら、ほとんど計算時間を無視できるほど高速である。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像表現のための制限付き非負行列因子分解
Constrained Nonnegative Matrix Factorization for Image Representation

Haifeng Liu, Zhejiang University, Hangzhou Zhaohui Wu, Zhejiang University, Hangzhou Deng Cai, Zhejiang University, Hangzhou Thomas S. Huang, University of Illinois at Urbana-Champaign, Urbana

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 7, pp. pp. 1299-1311 , July 2012

Keywords: Nonnegative matrix factorization, semi-supervised learning, dimension reduction, clustering.

 非負行列因子分解(Nonnegative matrix factorization : NMF)は、非負データの部品に基づく線形表現を求めるための人気のある手法である。これは、パターン認識、情報検索、それに、計算機による画像処理など、広範囲に利用されて来た。しかし、NMFは基本的に「教師無し」の方法であり、ラベル情報を利用することは出来ない。本論文では、ラベル情報とこれに追加される条件付きの非負行列因子分解であるCNMF(Constrained Nonnegative Matrix Factorization)と呼ばれる新規な準教師付きの因子分解法を加味した手法を提案する。特に、ラベル情報を加味することで結果としての行列の因子分解を改善できるかを示す。ここに、提案された2つのコスト定式化においてCNMF法を探索し、最適化のための解決法を提案する。実際の用途に基づく評価実験により、この新規な手法を最新の手法と比較する。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


CPMC:パラメータ制約付きのミニカットによる自動的オブジェクトセグメンテーション
CPMC: Automatic Object Segmentation Using Constrained Parametric Min-Cuts

João Carreira, University of Bonn, Bonn Cristian Sminchisescu, University of Bonn, Bonn

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 7, pp. pp. 1312-1328 , July 2012

Keywords: Image segmentation, figure-ground segmentation, learning.

 ボトムアップの計算法とMid-Levelの選択キューを利用したオブジェクトの空間的広がりと、尤もらしい仮説を生成しランク付けするための新規な枠組みを紹介する。このオブジェクト仮説は、図地分離によって表現され、個々のオブジェクトクラスの事前知識無しで自動的に抽出されるが、これには規則的グリッド上で反復したパラメトリックなMin-Cut問題を解くことで達成される。引き続くステップでは、対応したセグメンテーションを、連続的モデルを訓練することでランク付けを学習し、これによりmid-levelの領域特性に基づいて、どれだけ良く実世界の規則性を予測することが出来るかを示す。続いて最大周辺分布関連度(maximum marginal relevance measures)によって、予測されるオーバーラップスコアを分散化させる。本アルゴリズムはVOC 2009 と 2010データに対して、最新のアルゴリズムを大きく凌駕することを示している。これと比較する論文(1),(2)に対して、アルゴリズムはセグメンテーションに基づくオブジェクトカテゴリーに対して妥当性がある。VOC2009 と VOC2010画像では、第1位のセグメンテーションとラベル化の実績を示している。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Skellam分布を利用した差に基づく画像ノイズモデル化
Difference-Based Image Noise Modeling Using Skellam Distribution

Youngbae Hwang, Korea Electrical Technology Institute, South Korea Jun-Sik Kim, Carnegie Mellon University, Pittsburgh In So Kweon, KAIST, South Korea

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 7, pp. pp. 1329-1341 , July 2012

Keywords: Difference-based noise modeling, Skellam distribution, edge detection, background subtraction.

 量子力学の定理によれば、画素の強度は真の値ではなく、確率変数である。一般的な仮説と異なり、強度分布は加算的なガウス分布ではない。ここで、直接的に強度差をモデル化し、その妥当性を通常の加算的モデルによって実験的比較をしてみよう。強度差モデルとしてポアソン光子から導かれるSkellam分布を示す。これによるモデル化は、強度とSkellamパラメータの間の線形関係を導く一方、通常の変動計算法は、自然な照明下の特異な関係を示す訳ではない。強度Skellam線は、情景や照明、そしてほとんどのカメラパラメータに対して不変である。我々はまた、自然照明下でのカラーパターンと任意の画像を利用した光線を得る実用的手法を提案する。Skellamパラメータは、各強度に対して線形なノイズ分布を得られるため、基礎となる信号差やノイズに依るものであれ、統計的に任意に決定できる。この新しいノイズモデルの有効性を、背景の除去とエッジ検出によって実証することができる。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


目的探索:1回のクリックでインターネットの画像検索をする
IntentSearch: Capturing User Intention for One-Click Internet Image Search

Xiaoou Tang, The Chinese University of Hong Kong, Hong Kong Ke Liu, The Chinese University of Hong Kong, Hong Kong Jingyu Cui, Stanford University, Stanford Fang Wen, Microsoft Research Asia Xiaogang Wang, The Chinese University of Hong Kong, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 7, pp. pp. 1342-1353 , July 2012

Keywords: Image search, intention, image reranking, adaptive similarity, keyword expansion.

 ホームページの画像検索エンジン(GoogleやBing)はほとんとの場合周辺のテキスト特徴を利用する。質問のキーワードのみから利用者の探索意図を解釈することは困難であり、これがテキストに基づく探索の曖昧さと満足にほど遠い検索結果の原因となっている。本論文では、新規なインターネット画像探索法を利用することを提案する。ユーザーはたった1回クエリとなる画像をクリックするだけで(これは最小限の労力と考えられる)、テキストに基づいて画像集合から検索された画像群に対して、画像及びテキスト情報に基づいた再ランク付けを行う。我々の技術の特徴は、1) ユーザーの探索意図を1回の画像クリックによって、予め定義された大まかな適合的重みカテゴリに分類し、各重みカテゴリ内での特定の特異的な重みの概要と、この種の画像特徴と組み合わせてテキストに基づくより良いランク付ける。2) ユーザーが選択する質問画像の視覚的内容と画像クラスタリングに基づいて、質問キーワードの内容がユーザーの意図に合致するよう拡張される。3) 拡張されたキーワードが、もっと適切で、もっと多様な画像例を含むように、新規な質問画像で、類似内容のテキスト画像が更に学習され、再ランク付けされる。これら全てのステップはweb上でユーザーの仲介無しに自動的に行われる。このことは、どんな商用の検索エンジンにとって極めて重要である。なぜなら、これら実用的で単純なユーザーインターフェースしか許されないからである。このような重要な事柄以外に、次のような視覚的特徴で重要な特徴が求められる。実験的評価によれば、我々の手法によって、トップランクの画像精度のみならず、ユーザー体験も改善する。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


情報投影によるハイブリッド画像テンプレートの学習
Learning Hybrid Image Templates (HIT) by Information Projection

Zhangzhang Si, University of California, Los Angeles Song-Chun Zhu, University of California, Los Angeles

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 7, pp. pp. 1354-1367 , July 2012

Keywords: Image representation, deformable templates, information projection, visual learning, statistical modeling.

 本論文は少数の画像サンプル(3枚?20枚)から、生成的画像表現の一つであるハイブリッド画像テンプレート(hybrid image template: HIT)を学習するための新規な枠組みを紹介する。各学習テンプレートは、典型的には50?500の画像パッチから成っており、これらの幾何学的特徴(場所、スケール、方位)は近傍画像に比較して変形しており、4つの特徴で表される:局所的特徴(エッジ、バー)、テクスチャーの傾斜、領域の平坦度合い、および、色彩である。先ず、これらの不均質なランクに自動的にランク付けされ、大きなプールから自動的に情報投影フレームワークに従って選択される。本能的に、1) 統計的に高度な特徴パッチは高度な学習例を保持しており、負の情報例とは異なっている。2) この特徴統計量はより少ないクラス内変動を持っている。学習プロセスは一度に最も有用な情報パッチを追求し(生成過程であっても識別過程であっても)、新規な情報取得が統計的変動以内になると同時に停止する。このテンプレートは不均質で十分規格化された特徴統計量に関連付けられる。この自動的な特徴選択プロセスによって、我々のアルゴリズムは、通常の形状から確率変数的な多用途の画像カテゴリにスケールアップが可能となる。学習された表現によってオブジェクトの本質的な特徴のみならず情景カテゴリの把握が可能となる。我々はいくつかのベンチマークにおけるHoG+SVMと同程度のハイブリッドな画像テンプレートを評価でき、少ないサンプル数が利用できる場合は、後者が明らかに有利になる。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


照度差ステレオ法による深度マップの最尤度推定値
Maximum Likelihood Estimation of Depth Maps Using Photometric Stereo

Adam P. Harrison, University of Alberta, Edmonton Dileepan Joseph, University of Alberta, Edmonton

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 7, pp. pp. 1368-1380 , July 2012

Keywords: Photometric stereo, depth map, maximum likelihood estimation, nonlinear regression, finite difference methods.

照度差ステレオ法と深度マップ推定は、可変光源方向条件下において単一視点から撮像された、単一オブジェクトの複数画像から深度マップを構成する。ランベルトモデルを使った表面に垂直な反射モデルの推定値は詳細に確定されているが、深度マップの推定値は研究途上にあり、画像ノイズの扱いについては未だ研究課題の1つである。画像ノイズのゼロ平均ガウスモデルを利用して、本論文は推定プロセスの全ての深度推定モデルを使って、ノイズが伝播する最大尤度を導く手法を紹介する。最尤深度推定を解くには、画素毎に非線形回帰推定法を解くことが含まれ、単一で大きな線形で疎な回帰推定が続く。この線形なシステムは異方性の重みが採用され、関連する分野において、おのずと異なる値が採用される。新規な深度推定法は、高効率で高速であるため、現実的な画像サイズでも実用的である。人工的画像でのノイズの多い実験によっても、ロバストに深度マップを推定できることが実証された。困難な画像例での実験の説明は、Extended Yale Face Database Bと、500個の反射光顕微鏡画像動画の拡張データ集合によって示されている。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


全体論的な情景理解:フィードバックが可能なカスケード識別モデル
Toward Holistic Scene Understanding: Feedback Enabled Cascaded Classification Models

Congcong Li, Cornell University, Ithaca Adarsh Kowdle, Cornell University, Ithaca Ashutosh Saxena, Cornell University, Ithaca Tsuhan Chen, Cornell University, Ithaca

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 7, pp. pp. 1394-1408 , July 2012

Keywords: Scene understanding, classification, machine learning, robotics.

情景理解には、情景カテゴリ化、深度推定、オブジェクト検出などのような、多くの部分課題が含まれる。これらの部分課題は、しばしば極めて困難であり、最新の手法がこれらのためにすでに知られている。これらの識別器は、同一の原画像に対して作動し、関連した結果を出力する。任意の識別器に対して、内部の対象物に変化を及ぼさないで、このような関連を把握できるアルゴリズムを有することは望ましい。全部の部分タスクに対してオリジナルな識別器を全体としてブラックボックス化したインターフェースとして最適化することを、フィードバック可能なカスケードモデルとして、ここに提案する。ここでは、2層のカスケード識別器で、かつ、オリジナルな識別器の反復器として、第2層を入力層として入力する。我々の学習法はフィードバックを含み、後行程の識別器を前段階の識別器情報を誤判定として焦点を当てる。本方式は、情景理解の全領域理解部分課題において、性能が顕著に改善することを示す。ここでは、深度推定、情景カテゴリ化、事象カテゴリ化、オブジェクト検出、幾何学的ラベル付け、オブジェクトの明確化を示す。我々の手法は、オブジェクト杷握、オブジェクト検出ロボットのような、2つのロボットへの応用においても性能向上が見られた。

Ej

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


トラッキング、学習、検出
Tracking-Learning-Detection (HTML)

Zdenek Kalal, University of Surrey, Guildford Krystian Mikolajczyk, University of Surrey, Guildford Jiri Matas, Czech Technical University, Prague

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 7, pp. pp. 1409-1422 , July 2012

Keywords: Long-term tracking, learning from video, bootstrapping, real time, semi-supervised learning.

本稿では、ビデオ画像系列中の未知オブジェクトの長期間のトラッキングについて調査する。このようなオブジェクトはその位置と単一フレーム画像における画像占拠率で定義されるものである。課題となるのは、そのあとに続く全てのフレームで、当該オブジェクトの位置と占拠率か、オブジェクトが存在しない場合にはそのことを示すことである。新しいトラッキングフレームワークであるTLD(Tracking-Leaning-Detection)を提案する。これは前記の長期間トラッキング問題を明示的にトラッキング、学習および検出問題に分解して扱うものである。このうちトラッキング(追跡器)は、フレーム間でオブジェクトを追跡する。同様に検出器は、その時点で観測された全てのオブジェクトの位置決めを行い、必要に応じて追跡器の修正を行う。学習機能により、検出器の誤りを推定し、将来の誤りを回避するために、検出器を更新する。本稿では、検出器の誤りを同定する方法と、それによって学習する方法について検討する。新しい学習法(P-N学習)により、「エキスパート」の対を用いてこの誤りを推定する。1)Pエキスパートにより、未検出を推定する。2)Nエキスパートにより誤検出を推定する。学習過程は離散的動的システムとしてモデル化され、学習による向上が保証される条件を見つける。TLDフレームワークの実時間実装とPN学習について説明する。大規模な定量的評価実験により、提案フレームワークが既存の最新手法を有意に上回る性能を持つことが示される。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


訓練可能な畳みこみフィルタと顔認識への応用
Trainable Convolution Filters and Their Application to Face Recognition (HTML)

Ritwik Kumar, IBM Research, Almaden Arunava Banerjee, University of Florida, Gainesville Baba C. Vemuri, University of Florida, Gainesville Hanspeter Pfister, Harvard University, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 7, pp. pp. 1423-1436 , July 2012

Keywords: Face recognition, convolution, filtering classifier, Volterra kernels, Fisher's linear discriminant, boosting.

本稿では、新しい画像識別システムを紹介する。このシステムは訓練可能なフィルタ集合を利用して構成されたものであり、我々はこれをVolterraカーネル識別器と呼んでいる。本システムは画像を重複がありうる画像パッチの集合として取り扱い、以下の3つのコンポーネントからなる。1)スムース且つ可能な限り非線形な機能マッピングを求めるための単一パッチ識別のための方法。これにより各パッチをrange space(ハイパーグラフによるグラフ表現:訳者注)にマッピングする。この空間では同一クラスに属するパッチは近傍にマップされ、異なるクラスのパッチ間のL2ノームによる距離が遠くなるようになっている。このマッピングは訓練可能な畳みこみフィルタ(もしくはVolterraカーネル)を用いてなされる。この畳みこみカーネルは任意の形状もしくは次数をとりうる。2)様々なカーネル次数におけるVolterra識別器のコーパス、及び様々な形状のパッチに対するコーパスが与えられた時、パッチ毎の識別率を高めるための識別器の組み合わせに対する最適な重み付けを自動的に選択するためのブースティング法を与える。3)各パッチに対して算出された識別情報を、親画像識別結果に対する投票処理によってまとめるための方法。提案手法の効果を例証するための応用分野として顔認識を選び、Yale, CMU PIE, Extended Yale B, Multi-PIEおよびMERL Domeベンチマーク顔画像セットを用いた大規模な実験を行った。この時利用した顔認識用のVolterraカーネル識別器をVolterrafacesと呼んでいる。埋め込みに基づく顔画像識別法に分類される我々の手法が、この類の他の最新手法を上回る性能を持つことを示す。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非局所的テクスチャ拘束条件を用いたRetinex処理に対する閉形式の解
A Closed-Form Solution to Retinex with Nonlocal Texture Constraints (HTML)

Qi Zhao, National University of Singapore, Singapore Ping Tan, National University of Singapore, Singapore Qiang Dai, Jilin University, Jilin Li Shen, Institute for Infocomm Research, Singapore Enhua Wu, Chinese Academy of Sciences, Beijing Stephen Lin, Microsoft Research Asia, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 7, pp. pp. 1437-1444 , July 2012

Keywords: Intrinsic images, retinex, nonlocal constraint, texture.

retinex理論とテクスチャ解析に基づく本質的な画像分解法を提案する。殆どの既存手法が局所グラディエント特性を解析しているのに対し、我々の手法はテクスチャ解析により遠距離の同反射率の画素を同定し、この非局所的反射率拘束条件を用いることで、分解におけるあいまいさを有意に低減した。この分解問題を二次関数の最小化問題として定式化し、retinex拘束条件と、我々の非局所テクスチャ拘束条件の両方を取り入れる。この最適化は標準的な共役勾配法(conjugate gradient)アルゴリズムにより閉形式で解くことができる。従来手法との比較のための大規模な実験により、分解精度および実時間の計算効率性の両面において提案手法を検証した。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


PnP(Perspective-n-Point)問題に対する頑健なO(n)解
A Robust O(n) Solution to the Perspective-n-Point Problem (HTML)

Shiqi Li, Huazhong University of Science & Technology, Wuhan Chi Xu, Huazhong University of Science & Technology, Wuhan Ming Xie, Nanyang Technological University, Singapore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 7, pp. pp. 1444-1450 , July 2012

Keywords: Perspective-n-point problem, camera pose estimation, augmented reality.

本稿で我々はPnP(Perspective-n-Point)問題に対する非反復的解を提案する。本解法は7次多項式を解くことで最適値を頑健に見つけ出すことができる。中心となるアイディアは以下の3ステップにより構成される。1)リファレンス点群を3点のサブセットに分割し、4次多項式の組みを得る。2)コスト関数を構成するために前記多項式の二乗和を計算する。3)最適値を決定するために前記コスト関数の導関数の冪根を求める。提案手法の利点は以下のとおりである。まず2次元、通常の3次元、疑似特異の場合をそれぞれ安定的に扱うことができ、更には他の最新の反復的手法と同等の精度を、はるかに少ない計算量で実現できること。次に提案手法は世界初のPnP問題の非反復的解法であり、且つ、冗長なリファレンス点が利用できない場合に、反復的アルゴリズムよりもはるかに正確な結果を与えること。第三に、本解法の計算複雑性はO(n)であり、それゆえ大規模な点群を効率的に扱うことができること。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフマッチングアルゴリズムのための拡張パスフローイングアルゴリズム
An Extended Path Following Algorithm for Graph-Matching Problem (HTML)

Zhi-Yong Liu, Chinese Academy of Sciences, Beijing Hong Qiao, Chinese Academy of Sciences, Beijing Lei Xu, Chinese University of Hong Kong, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 7, pp. pp. 1451-1456 , July 2012

Keywords: Graph matching, convex relaxation, concave relaxation, directed graph, PATH following algorithm.

パスフローイングアルゴリズムは非指向性グラフのマッチング問題を近似的に解くために最近提案されたものであり、マッチング精度においては最新の性能を誇る。本稿ではこのパスフローイングアルゴリズムを凹弛緩することで指向性グラフモデルに対して拡張する。凹?及び凸?弛緩に基づいて、一群の目的関数を構成し、Frank-Wolfeアルゴリズムに寄りこれを最小化する。合成データと実データを用いたいくつかの実験により、この拡張パスフローイングアルゴリズムの有効性を確認した。

TS

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.34, No.8


IEEE Conference on Computer Vision and Pattern Recognition 2010 (CVPR2010)における受賞論文の特別編集者による紹介
Special Editors' Introduction to the Special Issue on Award-Winning Papers from the IEEE Conference on Computer Vision and Pattern Recognition 2010 (CVPR 2010)

Trevor Darrell, IEEE Computer Society David Hogg, IEEE Computer Society David Jacobs

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1665-1666 , September 2012

Keywords: Special issues and sections,Meetings,Computer vision,Pattern recognition

本セクションに掲載する9本の受賞論文は、CVPR2010(2010/6/13-18、カリフォルニア州サンフランシスコにて開催)において発表されたものである。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ウェブデータの学習によるビデオにおける視覚的なイベントの認識
Visual Event Recognition in Videos by Learning from Web Data (Abstract)

Lixin Duan, Nanyang Technological University, Singapore Dong Xu, Nanyang Technological University, Singapore Ivor Wai-Hung Tsang, Nanyang Technological University, Singapore Jiebo Luo, University of Rochester, Rochester

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1667-1680 , September 2012

Keywords: Videos,Kernel,YouTube,Learning systems,Feature extraction,Visualization,Support vector machines,aligned space-time pyramid matching.,Event recognition,transfer learning,domain adaptation,cross-domain learning,adaptive MKL

Youtubeなどに公開さている簡易的にラベル付けがされた大量のウェブビデオを活用した、家庭ビデオ(consumer video)の視覚的イベント認識(visual event recognition)フレームワークを提案する。家庭ビデオでは一般に、同種のイベントであってもクラス内の大きなばらつきが存在するという観察結果に基づき、まず任意の2動画間の距離を測る"Aligned Space-Time Pyramid Matching" (ASTPM)という新しい手法を提案する。次に"Adaptive Multiple Kernel Learing" (A-MKL)と呼ぶ新しい転移学習(transfer learning)手法を提案する。この手法の目的は、1)ピラミッドの複数の層から得られる情報と特徴量(時空間特徴量と静的なSIFT特徴量)とを統合し、2)二つの空間(ウェブビデオ空間と家庭ビデオ空間)の間の特徴量の分布の非常に大きな差に対応する、ことにある。ピラミッドの各層と各局所特徴量について、まず異なるカーネルとパラメータに基づく複数のベースカーネルを用いたSVM識別器の組を、二つの空間のデータからなる学習データを用いて学習させる。その後、これらのベースカーネルを等しい重みで結合し、事前学習済みの平均識別器(average classifier)を得る。A-MKLでは各イベントクラスについて、複数のベースカーネルとこのイベントクラスないし全てのイベントクラスの事前学習済み平均識別器に基づいて適合ターゲット識別器(adapted target classifier)を学習する。個別のイベントクラスの識別器を用いるか全てのイベントクラスの識別器を用いるかは、構造的リスク関数(structural risk function)と、二つの空間におけるデータの分布の差異との双方を最小化するように選択する。筆者らが提案したフレームワークは、ウェブデータを活用することで少数のラベル付けされた家庭ビデオのみを必要とするにもかかわらず、大規模な実験によりその有効性を確認できる。更に提案手法であるA-MKLについて様々な側面から詳細な分析を行う。例を挙げれば、事前学習済み識別器の結合係数に関する分析、学習アルゴリズムの収束性、そしてラベルの付いた家庭ビデオの種類の比率に基づく性能のばらつきの評価である。更に、A-MKLは個別のイベントクラスに基づいて事前学習を行った識別器を用いるよりも全てのイベントクラスに基づいて事前学習を行った識別器を用いた方が良好な結果が得られることも示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


L1ノルムを用いた頑健な重み付き低ランク行列近似の効率的な計算方法
Efficient Computation of Robust Weighted Low-Rank Matrix Approximations Using the L_1 Norm (Abstract)

Anders Eriksson, University of Adelaide, Adelaide Anton van den Hengel, University of Adelaide, Adelaide

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1681-1690 , September 2012

Keywords: Robustness,Approximation algorithms,Equations,Least squares approximation,Computational efficiency,Optimization,L_{{1}}-minimization.,Low-rank matrix approximation

行列の低ランク近似(low-rank approximation)はコンピュータビジョンや他の分野の多くのアルゴリズムにおいて極めて重要である。この低ランク近似に用いられる基本的な手法の一つに特異値分解(Singular Value Decomposition)があるが、この手法はデータ中に外れ値や欠損値があるケースには適用できない。残念ながら、現実にはこのようなケースは多々存在する。筆者らはWibergアルゴリズムを一般化した低ランク行列近似手法を提案する。我々の手法は欠損値の有無に関係なく、L1ノルムを最小化するランク拘束された因子分解(rank-constrained factorization)を行う。これは線形計画法の微分可能性を利用して実現されており、この結果として既存の最適化ソフトウェアを用いて効率的に実装可能なアルゴリズムになっている。合成データと現実のデータに基づく実験結果を示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


物体と人物の姿勢に関する相互コンテキストのモデル化による静止画からの人物と物体のインタラクション認識
Recognizing Human-Object Interactions in Still Images by Modeling the Mutual Context of Objects and Human Poses (Abstract)

Bangpeng Yao, Stanford University, Stanford Li Fei-Fei, Stanford University, Stanford

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1691-1703 , September 2012

Keywords: Humans,Context,Estimation,Context modeling,Object detection,Biological system modeling,Sports equipment,conditional random field.,Mutual context,action recognition,human pose estimation,object detection

複雑なシーンにおける物体の検知と二次元画像から関節で接続された人体の部位(articulated human body parts)の推定は、共にコンピュータビジョンにおいて非常に難易度の高い課題である。特に人物と物体とのインタラクションを含む動作において、その困難さは一層際立つ。例としてテニスを行っているシーンが挙げられる。このようなケースでは関連のある物体が小さかったりその一部しか見えなかったりするだけでなく、人体の部位がそれ自体の影に隠れてしまう(self-occluded)ことが多いためである。しかし、我々の観察によれば物体と人物の姿勢とは相互のコンテキスト(mutual context)となりえることから、一方を認識することで他方の認識が容易になる。本論文において、我々は人物と物体との間のインタラクションにおいて、物体と人物の姿勢を併せてモデル化する相互コンテキストモデルを提案する。我々のアプローチでは、物体検知は人物の姿勢推定における強力な前提条件となる一方、人物の姿勢推定はその人物とインタラクションする物体の検出精度を向上させる。6クラスからなるスポーツのデータセットと24クラスからなる楽器を演奏する人々のデータセットにおいて、我々が提案する相互コンテキストモデルが非常に難しい物体の検出や人物の姿勢推定だけでなく、人物と物体とのインタラクションを識別する上で最先端の手法を上回る性能を示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所画像記述子をコンパクトなコードにまとめる方法
Aggregating Local Image Descriptors into Compact Codes (Abstract)

Hervé Jé gou, INRIA, Rennes Florent Perronnin, Xerox Research Centre Europe, Grenoble Matthijs Douze, INRIA, Rhone-Alpes Jorge Sánchez, National University of Cordoba Patrick Párez, Technicolor Research and Innovation Cordelia Schmid, INRIA, Grenoble

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1704-1716 , September 2012

Keywords: Vectors,Accuracy,Visualization,Kernel,Indexing,Image representation,indexing.,Image search,image retrieval

本論文では大規模な画像検索における課題を提起する。この課題とは、検索精度、速度、そしてメモリ使用量の3つである。まず局所記述子を1つのベクトルにまとめる様々な手法を紹介し、その性能を評価する。そしてFisherカーネルが比較対象である"bag-of-visual words"アプローチに対して、任意のベクトル次元で高い性能を発揮することを示す。その後、厳密なベクトルの比較とコンパクトな表現の獲得を目的として、次元圧縮とインデックス化とを同時に最適化する。評価実験の結果から、画像表現は高い精度を維持しながら数十バイトまで圧縮できることが示される。1億件の画像データの検索に一つのプロセッサコアで250ms程度を要する。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パラメトリック曲面の形状空間における弾性的測地経路
Elastic Geodesic Paths in Shape Space of Parameterized Surfaces (Abstract)

Sebastian Kurtek, Florida State University, Tallahassee Eric Klassen, Florida State University, Tallahassee John C. Gore, Vanderbilt University, Nashville Zhaohua Ding, Vanderbilt University, Nashville Anuj Srivastava, Florida State University, Tallahassee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1717-1730 , September 2012

Keywords: Shape,Space vehicles,Three dimensional displays,Vectors,Orbits,Extraterrestrial measurements,geodesics.,Shape analysis,Riemannian distance,parameterization invariance,path-straightening

本論文ではパラメトリック曲面(parameterized surfaces)の形状分析を行う新しいリーマン・フレームワークを提案する。特に、曲面の比較、照合、変形を行う上で重要な測地経路(geodesic path)を計算する効率的なアルゴリズムを示す。本フレームワークの特徴は測地線(geodesics)が曲面のパラメタライゼーションや他の形状を維持する変換に対して不変である点にある。基本的な考え方は、埋め込み曲面(embedded surface)の空間を構築し、この空間に対する再パラメタライゼーション群が等長変換(isometry)となるようにリーマン計量(Riemannian metric)を与える。このフレームワークの下で、二種類の最適化問題を解く。第一に、任意の回転とパラメタライゼーションを施した二つの曲面が与えられたとき、選択された計量の元で経路の直線化(path-straightening)を行い二つの曲面間の最短経路を求める。第二に、文献[24]で提唱された手法を改良し、曲面間の最適な回転とパラメタライゼーション(位置合わせ)を求める。これらを同時に満たす解は、パラメタライゼーションされた曲面の形状空間(shape space)における最短経路を計算する効率的な手法となる。解剖構造(anatomical structure)や他の一般的な曲面の形状分析を例に、これらの考え方を説明する。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像分割のための階層化オブジェクトモデル
Layered Object Models for Image Segmentation (Abstract)

Yi Yang, University of California at Irvine, Irvine Sam Hallman, University of California at Irvine, Irvine Deva Ramanan, University of California at Irvine, Irvine Charless C. Fowlkes, University of California at Irvine, Irvine

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1731-1743 , September 2012

Keywords: Shape,Image segmentation,Image color analysis,Detectors,Object detection,Mathematical model,Computational modeling,segmentation benchmark.,Image segmentation,multiclass object detection,layered model,2.1D model

我々は物体検出と画像分割を目的とする階層化モデルを定式化する。我々は複数の物体検知器の出力を合成する生成的確率モデル(generative probablistic model)について説明する。この目的は形状マスクを定義し、画像を構成する全ての画素の外観、深さ順序(depth ordering)、ラベルを説明することにある。注目すべきは我々のシステムではクラスのラベルとオブジェクトインスタンスのラベルの両方を推定する点にある。物体検出と画像分割に関する従来のベンチーマーク基準に基づき、クラス分割とインスタンス分割の両方に対応する新たなスコアを定義する。本システムをPASCAL2009と同2010のデータセットを用いて評価し、人物の抽出を含む複数のカテゴリにおいて最先端技術に比類する良好な結果を示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Motion Detail Preserving Optical Flow Estimation (Abstract)
Motion Detail Preserving Optical Flow Estimation (Abstract)

Li Xu, The Chinese University of Hong Kong, Hong Kong Jiaya Jia, The Chinese University of Hong Kong, Hong Kong Yasuyuki Matsushita, Microsoft Research Asia, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1744-1757 , September 2012

Keywords: Estimation,Optimization,Optical imaging,Vectors,Adaptive optics,Image color analysis,Robustness,features.,Optical flow,image motion,video motion,variational methods,optimization

マルチスケール変分法に基づくオプティカルフロー推定における一般的な課題は、動きの詳細な構造(fine motion structure)が常に正しく推定できるとは限らないことである。この課題は特に、突発的に大きな変動が生じる領域において顕著である。本論文では新しい拡張粗密改定フレームワーク(extended coarse-to-fine refinement framework)を導入してこの課題に対応する。これによりフロー推定において粗レベルで導出された結果に基づいて設定される初期値への依存性を低減し、各スケールにおける様々な動きの詳細を再現することができる。本論文では更に、外れ値に対応するための目的関数を適用すると共に、新たな最適化手順を構築する。提案手法の有効性を、Middleburyオプティカルフロー・ベンチマーク基準と大きな動きを伴う難易度の高い実験データを用いて示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線分、楕円、外観特徴の独立した組み合わせに基づく物体認識
Object Recognition by Discriminative Combinations of Line Segments, Ellipses, and Appearance Features (Abstract)

Alex Yong-Sang Chia, Institute for Infocomm Research, Singapore Deepu Rajan, Nanyang Techological University, Singapore Maylor Karhang Leung, University Rahman, Malaysia Susanto Rahardja, Nanyang Techological University, Singapore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1758-1772 , September 2012

Keywords: Shape,Feature extraction,Training,Image edge detection,Vectors,Robustness,Image segmentation,category-level object detection.,Shape primitives,appearance features,image classification

実世界のシーンにおける物体のクラスを認識するための、単純かつ一般的な形状要素(線分や楕円)を用いた新しい輪郭ベースのアプローチを提案する。一般的に利用される輪郭の断片的な特徴と比較して、これらの形状要素のデータ量は物体サイズに依存しないことから、より効率的に表現することができる。加えてこれらの形状要素は、その幾何学的な特性に基づいて簡単に記述することができ、これに伴い特徴の比較が効率的に行える。提案手法ではこれらの形状要素の組みを形状トークンとし、この形状トークンの独立した組合せを学習する。ここで各組合せは任意の数の形状トークンを含むことができる。この特徴と形状要素自体の特性とが合わさり、クラスに特有の多数の形状構造を学習することができる。我々は輪郭ベースの手法に基づく、形状特徴と外観特徴とを組み合わせた新たなハイブリッド認識手法を提案する。形状トークンの各組み合わせは特徴の数や種類がバラバラであり、この2種類のばらつきによってハイブリッド手法はより一層の柔軟性と識別能を獲得する。多数の高難易度のクラスに対して提案手法を評価し、従来手法と遜色のない結果が得られることを示す。この結果は提案した形状要素が実世界の複雑なシーンにおいて、物体のクラスを認識する上で有効であることを示唆している。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ハフ変換を用いた複数物体検出
On Detection of Multiple Object Instances Using Hough Transforms (Abstract)

Olga Barinova, Lomonosov Moscow State University, Moscow Victor Lempitsky, Yandex, Moscow Pushmeet Kholi, Microsoft Research Cambridge, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1773-1784 , September 2012

Keywords: Transforms,Probabilistic logic,Object detection,Image edge detection,Joints,Cognition,Random variables,scene understanding.,Hough transforms,object detection in images,line detection

ハフ変換を用いて複数の物体を検出する手法は、ハフ画像においてピークを特定し識別するために細線化(nonmaxima suppression)か中央値探索(mode seeking)を行う。このような後処理では多数のパラメータを最適化する必要があるだけでなく、特に物体同士が近接して存在するケースで破綻しやすい。本論文では、ハフ変換を用いた新しい確率的な物体検出フレームワークを提案する。このフレームワークはハフ変換の単純さと汎用性を継承するだけでなく、ハフ画像における複数のピークの識別という課題を回避すると共に、経験則に基づく細線化を伴うことなく複数物体を検出することができる。実験により、従来からある直線検出だけでなく、カテゴリ・レベルの歩行者検出においても本手法による大幅な検出精度の向上が実現できたことを示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


不変な同一中心パターンに基づく眼球中心の高精度位置特定
Accurate Eye Center Location through Invariant Isocentric Patterns (Abstract)

Roberto Valenti, University of Amsterdam, Amsterdam Theo Gevers, University of Amsterdam, Amsterdam

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1785-1798 , September 2012

Keywords: Face,Feature extraction,Vectors,Image edge detection,Analytical models,Image resolution,Microwave integrated circuits,facial features detection.,Eye center location,isophotes

眼球中心を特定することで重要な情報を獲得することができ、広範な用途における活用が見込める。高精度な眼球中心位置は市販の視線方向追跡装置によって測定することが可能であるが、一般(可視光)の低解像度画像で用いる上では装置が高価であることや新たな制約が生じることから余り利用されてこなかった。本論文では外観のみを利用するシステムを提案するが、このシステムで対象とする低解像度画像では眼球中心の正確な位置特定と移動の検出までは行えない。我々の目的は、ウェブカメラなどにより撮影された低解像度画像を用いて眼球の中心を瞳孔の領域から特定することにより、このギャップを埋めることにある。提案手法では等輝度線の特性(isophote properties)を用いることで、照明条件の線形変化(コントラストや明度変化)に対する耐性を実現する。これにより平面内の回転不変性と計算コストの低減を図る。更に変倍に対する不変性を実現するために、本手法を複数のスケール(scale space pyramid)に対して適用する。本論文では、提案方式の様々な変動要因に対する頑健性を確認する。対象とする変動要因は、照明、頭部位置、大きさ、遮蔽、眼球の回転である。我々のシステムは一般的な低解像度画像における眼球中心の特定において、最先端の技術よりも高精度であることを示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


離散的に配置された複数台のカメラを用いた漸次的な動作モデル化方法
Incremental Activity Modeling in Multiple Disjoint Cameras (Abstract)

Chen Change Loy, Queen Mary University of London, London Tao Xiang, Queen Mary University of London, London Shaogang Gong, Queen Mary University of London, London

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1799-1813 , September 2012

Keywords: Cameras,Delay effects,Visualization,Context,Videos,Complexity theory,Member and Geographic Activities,incremental structure learning.,Unusual event detection,multicamera activity modeling,time delay estimation

ネットワークカメラにおける動作のモデル化と異常イベントの検出は困難な課題である。これは特にカメラの撮影範囲に重なりがない条件で顕著である。我々は複数の離散的に配置されたカメラ(disjoint cameras)における異常イベントを、コンテキストに一貫性のないパターン(context-incoherent patterns)として検出を行うことが可能であることを示す。これは単一のカメラ内および複数のカメラ間で観測される分散した局所動作の時間軸に沿った関連性を漸次的学習(incremental learning)することで実現する。具体的には、複数のカメラにおける動作を遅延つき確率的グラフィカルモデル(Time Delayed Probabilistic Graphical Model:TD-PGM)でモデル化する。ここで各ノードは各視点の部分領域における動作を表し、ノード間の有向リンク(directed links)は遅延つき依存関係(time delayed dependencies)を符号化したものである。視覚的なコンテキストの変化に対応するため、時間経過に伴って変化する遅延つき依存関係をモデル化する新たな漸次的学習モデルを定式化する。提案手法の有効性を仮想データと混雑した地下鉄駅に設置されたネットワークカメラから得られた映像とを用いて検証する。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オンライン・カーネル主成分分析:次元削減されたモデルの1形態
Online Kernel Principal Component Analysis: A Reduced-Order Model (Abstract)

Paul Honeine, Université de Technologie de Troyes, Troyes

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1814-1826 , September 2012

Keywords: Kernel,Principal component analysis,Eigenvalues and eigenfunctions,Dictionaries,Algorithm design and analysis,Data models,Training data,recursive algorithm.,Principal component analysis,online algorithm,machine learning,reproducing kernel,Oja's rule

カーネル主成分分析は、最も一般的に利用されているデータ分析や次元削減手法である主成分分析を賢く非線形に拡張したものである。本論文では、カーネル主成分分析のオンラインアルゴリズムを提案する。このために、元々は線形な主軸を抽出する目的で提唱されたカーネルベースのOjaの法則を吟味する。多くのカーネルベースの機械と同様に、モデル次元は利用可能な観測点の数に等しい。これを受け、オンラインの仕組みを構築するためにモデル次元を制御することを提案する。次元削減されたモデル(reduced-order model)を用いた際の主関数推定における誤差の上限など、理論的な特性について議論する。我々は第一主軸を求めるための再帰的なアルゴリズムを導出し、これを複数の軸に対して拡張する。実験結果から、提案手法は従来のカーネル主成分分析や反復カーネル主成分分析と比較して、合成データセットと手書き数字画像の両方に対して有効であることを示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


反射の対称性に基づく画像分割
Reflection Symmetry-Integrated Image Segmentation (Abstract)

Yu Sun, University of California, Riverside Bir Bhanu, University of California, Riverside

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1827-1841 , September 2012

Keywords: comparison of segmentation algorithms.,Local and global symmetry,region growing,symmetry affinity,segmentation and symmetry evaluation

本論文では対称性に基づく新しい領域ベースの画像分割手法を提案する。本手法は画像の対称性を利用して画像分割を改善する。これは分割の手掛り(segmentation cues)に柔軟に追加できる対称性トークン(symmetry token)を作成することにより実現する。画像中の注目領域はまずSIFTにより抽出され、左右対称性を検出するために更に絞り込まれる。その後、対称軸を用いて対称性親和度マトリックス(symmetry affinity matrix)が算出され、領域成長アルゴリズムの制約として分割領域の対称性を改善するために利用される。多目的遺伝的検索(multi-objective genetic search)により、分割性と対称性の両方が最良となる分割結果を求める。この結果は大局最適に近いものとなる。本手法は難易度の高い自然画像と人工物を含む画像とを用いた実験により評価される。この結果から提案手法は従来の画像分割手法に対して、それが対称性を利用するか否かに関わらず優位であることが分かる。実験結果の分析から、対称性は色やテクスチャなどの要素と共に、画像分割における重要な手掛りとなりうることが示唆される。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像群のカテゴリ断片の教師なし学習
Unsupervised Learning of Categorical Segments in Image Collections (Abstract)

Marco Andreetto, California Institute of Technology, Pasadena Lihi Zelnik-Manor, Technion Israel Institute of Technology, Haifa Pietro Perona, California Institute of Technology, Pasadena

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1842-1855 , September 2012

Keywords: Image segmentation,Probabilistic logic,Visualization,Shape,Image recognition,Pattern analysis,scene analysis.,Computer vision,image segmentation,unsupervised object recognition,graphical models,density estimation

分割と認識はどちらが先だろうか。我々はこれらを並列に且つ教師なしで実現する統合フレームワークを提案する。このフレームワークでは、各断片の形状や外観を表現するために柔軟な確率モデルと、認識のための"bag of visual words"モデルとを組み合わせる。画像群に対して適用すれば、提案するフレームワークは画像の断片とそれらの関連を同時に自動で検出できる。ここで繰り返し検出される断片は、画像群に複数回出現する物体の一部であると見なすことができる。したがって、このモデルを用いることで、コストのかかる手動でのアノテーションを行うことなく、新しいカテゴリの学習、物体の検出や分類、画像の分割が実現できる。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


新しい残差ベクトルのノルムの半定値計画法による最小化を用いた多次元楕円体に特化した高速なフィッティング・アルゴリズム
A Fast Algorithm for Multidimensional Ellipsoid-Specific Fitting by Minimizing a New Defined Vector Norm of Residuals Using Semidefinite Programming (Abstract)

Xianghua Ying, Peking University, Beijing Li Yang, Peking University, Beijing Hongbin Zha, Peking University, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1856-1863 , September 2012

Keywords: Vectors,Fitting,Minimization,Symmetric matrices,Programming,Surface fitting,Eigenvalues and eigenfunctions,new defined vector norm.,Multidimensional ellipsoid,ellipsoid-specific fitting,semidefinite programming

n次元空間における二次曲面は二次多項式がゼロとなる位置で定義される。二次多項式はn次元同時座標を表すn+1次元ベクトルや、二次多項式の係数から成るn+1次元の実対称行列としてコンパクトに記述することができる。n次元空間における二次曲面がn次元の楕円体であれば、先頭の(leading)n×n次元の部分主行列(principal submatrix)は、正定値(positive definite)ないし負定値 (訳者注:原文には"opposite definite"と記載されているが、役者が知る限りにおいてこれは一般的に利用されている表現ではない。文章の内容から負定値(negative definite)を意図しているものと判断し、これを訳語として選択した。)である。既に知られているように、正定値行列ないし負定値行列という制約の元では、半定値計画法(semidefinite programming)を用いることが最良の選択である。2002年までに公開された文献から得られた単純かつ直感的な知見から、Calafioreは多次元楕円体に特化したフィッティングの最初の実用的な手法を提案した。この手法では半定値計画法を用いて代数的残差ベクトル(algebraic residual vector)の2ノルムを最小化している。しかしながら、この手法ではフィッティング点数が数千を超えると、計算時間が肥大化すると共にメモリ容量が不足するという問題がある。本論文では、多次元楕円体に特化した高速かつ実装の容易なフィッティング・アルゴリズムを提案する。このアルゴリズムでは新たに定義する代数的残差ベクトルのノルムを半定値計画法により最小化することで、精度を保ちながら半定値計画法の問題を劇的に緩和する。提案手法を用いれば、数百万のフィッティング点であっても容易に処理できる。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


拡張SRC:クラス内変動辞書を用いたアンダーサンプルされた顔の認識
Extended SRC: Undersampled Face Recognition via Intraclass Variant Dictionary (Abstract)

Weihong Deng, Beijing University of Posts and Telecommunications, Beijing Jiani Hu, Beijing University of Posts and Telecommunications, Beijing Jun Guo, Beijing University of Posts and Telecommunications, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1864-1870 , September 2012

Keywords: Training,Dictionaries,Face recognition,Lighting,Face,Error analysis,feature extraction.,Face recognition,sparse representation,undersampled problem

スパース表現に基づく識別(Sparse Representation-Based Classification:SRC)は、近年の顔認識分野におけるブレークスルーであり、認識過程における課題を被写体の適切な学習画像により解決している。本論文では、SRCを各被写体の学習画像が非常に少ない条件に拡張する。ある被写体のクラス内変動は他の被写体のスパースな線形結合として近似できると仮説し、提案手法(Extended Sparse Representation-Based Classifier:ESRC)では学習画像とテスト画像との間に生じうる変動を表現するためのクラス内変動辞書(intraclass variant dictionary)を追加する。辞書の要素は、画像集に含まれる顔画像か画像集に含まれない一般的な顔画像の一方から計算されたクラス内のサンプル間の相違を表す。ARデータベースやFERETデータベースを用いた実験結果から、ESRCはSRCと比較してアンダーサンプルされた顔画像の様々な表情や照明条件、変装、年齢に対する汎化性能が高いことが分かる。ESRCの良好な結果は、例え各クラスの学習画像が1枚であっても、辞書を適切に構築することでSRCが大規模な顔認識用途に適用可能であることを示唆している。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.34, No.9


IEEE Conference on Computer Vision and Pattern Recognition 2010 (CVPR2010)における受賞論文の特別編集者による紹介
Special Editors' Introduction to the Special Issue on Award-Winning Papers from the IEEE Conference on Computer Vision and Pattern Recognition 2010 (CVPR 2010)

Trevor Darrell, IEEE Computer Society David Hogg, IEEE Computer Society David Jacobs

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1665-1666 , September 2012

Keywords: Special issues and sections,Meetings,Computer vision,Pattern recognition

本セクションに掲載する9本の受賞論文は、CVPR2010(2010/6/13-18、カリフォルニア州サンフランシスコにて開催)において発表されたものである。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ウェブデータの学習によるビデオにおける視覚的なイベントの認識
Visual Event Recognition in Videos by Learning from Web Data (Abstract)

Lixin Duan, Nanyang Technological University, Singapore Dong Xu, Nanyang Technological University, Singapore Ivor Wai-Hung Tsang, Nanyang Technological University, Singapore Jiebo Luo, University of Rochester, Rochester

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1667-1680 , September 2012

Keywords: Videos,Kernel,YouTube,Learning systems,Feature extraction,Visualization,Support vector machines,aligned space-time pyramid matching.,Event recognition,transfer learning,domain adaptation,cross-domain learning,adaptive MKL

Youtubeなどに公開さている簡易的にラベル付けがされた大量のウェブビデオを活用した、家庭ビデオ(consumer video)の視覚的イベント認識(visual event recognition)フレームワークを提案する。家庭ビデオでは一般に、同種のイベントであってもクラス内の大きなばらつきが存在するという観察結果に基づき、まず任意の2動画間の距離を測る"Aligned Space-Time Pyramid Matching" (ASTPM)という新しい手法を提案する。次に"Adaptive Multiple Kernel Learing" (A-MKL)と呼ぶ新しい転移学習(transfer learning)手法を提案する。この手法の目的は、1)ピラミッドの複数の層から得られる情報と特徴量(時空間特徴量と静的なSIFT特徴量)とを統合し、2)二つの空間(ウェブビデオ空間と家庭ビデオ空間)の間の特徴量の分布の非常に大きな差に対応する、ことにある。ピラミッドの各層と各局所特徴量について、まず異なるカーネルとパラメータに基づく複数のベースカーネルを用いたSVM識別器の組を、二つの空間のデータからなる学習データを用いて学習させる。その後、これらのベースカーネルを等しい重みで結合し、事前学習済みの平均識別器(average classifier)を得る。A-MKLでは各イベントクラスについて、複数のベースカーネルとこのイベントクラスないし全てのイベントクラスの事前学習済み平均識別器に基づいて適合ターゲット識別器(adapted target classifier)を学習する。個別のイベントクラスの識別器を用いるか全てのイベントクラスの識別器を用いるかは、構造的リスク関数(structural risk function)と、二つの空間におけるデータの分布の差異との双方を最小化するように選択する。筆者らが提案したフレームワークは、ウェブデータを活用することで少数のラベル付けされた家庭ビデオのみを必要とするにもかかわらず、大規模な実験によりその有効性を確認できる。更に提案手法であるA-MKLについて様々な側面から詳細な分析を行う。例を挙げれば、事前学習済み識別器の結合係数に関する分析、学習アルゴリズムの収束性、そしてラベルの付いた家庭ビデオの種類の比率に基づく性能のばらつきの評価である。更に、A-MKLは個別のイベントクラスに基づいて事前学習を行った識別器を用いるよりも全てのイベントクラスに基づいて事前学習を行った識別器を用いた方が良好な結果が得られることも示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


L1ノルムを用いた頑健な重み付き低ランク行列近似の効率的な計算方法
Efficient Computation of Robust Weighted Low-Rank Matrix Approximations Using the L_1 Norm (Abstract)

Anders Eriksson, University of Adelaide, Adelaide Anton van den Hengel, University of Adelaide, Adelaide

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1681-1690 , September 2012

Keywords: Robustness,Approximation algorithms,Equations,Least squares approximation,Computational efficiency,Optimization,L_{{1}}-minimization.,Low-rank matrix approximation

行列の低ランク近似(low-rank approximation)はコンピュータビジョンや他の分野の多くのアルゴリズムにおいて極めて重要である。この低ランク近似に用いられる基本的な手法の一つに特異値分解(Singular Value Decomposition)があるが、この手法はデータ中に外れ値や欠損値があるケースには適用できない。残念ながら、現実にはこのようなケースは多々存在する。筆者らはWibergアルゴリズムを一般化した低ランク行列近似手法を提案する。我々の手法は欠損値の有無に関係なく、L1ノルムを最小化するランク拘束された因子分解(rank-constrained factorization)を行う。これは線形計画法の微分可能性を利用して実現されており、この結果として既存の最適化ソフトウェアを用いて効率的に実装可能なアルゴリズムになっている。合成データと現実のデータに基づく実験結果を示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


物体と人物の姿勢に関する相互コンテキストのモデル化による静止画からの人物と物体のインタラクション認識
Recognizing Human-Object Interactions in Still Images by Modeling the Mutual Context of Objects and Human Poses (Abstract)

Bangpeng Yao, Stanford University, Stanford Li Fei-Fei, Stanford University, Stanford

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1691-1703 , September 2012

Keywords: Humans,Context,Estimation,Context modeling,Object detection,Biological system modeling,Sports equipment,conditional random field.,Mutual context,action recognition,human pose estimation,object detection

複雑なシーンにおける物体の検知と二次元画像から関節で接続された人体の部位(articulated human body parts)の推定は、共にコンピュータビジョンにおいて非常に難易度の高い課題である。特に人物と物体とのインタラクションを含む動作において、その困難さは一層際立つ。例としてテニスを行っているシーンが挙げられる。このようなケースでは関連のある物体が小さかったりその一部しか見えなかったりするだけでなく、人体の部位がそれ自体の影に隠れてしまう(self-occluded)ことが多いためである。しかし、我々の観察によれば物体と人物の姿勢とは相互のコンテキスト(mutual context)となりえることから、一方を認識することで他方の認識が容易になる。本論文において、我々は人物と物体との間のインタラクションにおいて、物体と人物の姿勢を併せてモデル化する相互コンテキストモデルを提案する。我々のアプローチでは、物体検知は人物の姿勢推定における強力な前提条件となる一方、人物の姿勢推定はその人物とインタラクションする物体の検出精度を向上させる。6クラスからなるスポーツのデータセットと24クラスからなる楽器を演奏する人々のデータセットにおいて、我々が提案する相互コンテキストモデルが非常に難しい物体の検出や人物の姿勢推定だけでなく、人物と物体とのインタラクションを識別する上で最先端の手法を上回る性能を示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所画像記述子をコンパクトなコードにまとめる方法
Aggregating Local Image Descriptors into Compact Codes (Abstract)

Hervé Jé gou, INRIA, Rennes Florent Perronnin, Xerox Research Centre Europe, Grenoble Matthijs Douze, INRIA, Rhone-Alpes Jorge Sánchez, National University of Cordoba Patrick Párez, Technicolor Research and Innovation Cordelia Schmid, INRIA, Grenoble

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1704-1716 , September 2012

Keywords: Vectors,Accuracy,Visualization,Kernel,Indexing,Image representation,indexing.,Image search,image retrieval

本論文では大規模な画像検索における課題を提起する。この課題とは、検索精度、速度、そしてメモリ使用量の3つである。まず局所記述子を1つのベクトルにまとめる様々な手法を紹介し、その性能を評価する。そしてFisherカーネルが比較対象である"bag-of-visual words"アプローチに対して、任意のベクトル次元で高い性能を発揮することを示す。その後、厳密なベクトルの比較とコンパクトな表現の獲得を目的として、次元圧縮とインデックス化とを同時に最適化する。評価実験の結果から、画像表現は高い精度を維持しながら数十バイトまで圧縮できることが示される。1億件の画像データの検索に一つのプロセッサコアで250ms程度を要する。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パラメトリック曲面の形状空間における弾性的測地経路
Elastic Geodesic Paths in Shape Space of Parameterized Surfaces (Abstract)

Sebastian Kurtek, Florida State University, Tallahassee Eric Klassen, Florida State University, Tallahassee John C. Gore, Vanderbilt University, Nashville Zhaohua Ding, Vanderbilt University, Nashville Anuj Srivastava, Florida State University, Tallahassee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1717-1730 , September 2012

Keywords: Shape,Space vehicles,Three dimensional displays,Vectors,Orbits,Extraterrestrial measurements,geodesics.,Shape analysis,Riemannian distance,parameterization invariance,path-straightening

本論文ではパラメトリック曲面(parameterized surfaces)の形状分析を行う新しいリーマン・フレームワークを提案する。特に、曲面の比較、照合、変形を行う上で重要な測地経路(geodesic path)を計算する効率的なアルゴリズムを示す。本フレームワークの特徴は測地線(geodesics)が曲面のパラメタライゼーションや他の形状を維持する変換に対して不変である点にある。基本的な考え方は、埋め込み曲面(embedded surface)の空間を構築し、この空間に対する再パラメタライゼーション群が等長変換(isometry)となるようにリーマン計量(Riemannian metric)を与える。このフレームワークの下で、二種類の最適化問題を解く。第一に、任意の回転とパラメタライゼーションを施した二つの曲面が与えられたとき、選択された計量の元で経路の直線化(path-straightening)を行い二つの曲面間の最短経路を求める。第二に、文献[24]で提唱された手法を改良し、曲面間の最適な回転とパラメタライゼーション(位置合わせ)を求める。これらを同時に満たす解は、パラメタライゼーションされた曲面の形状空間(shape space)における最短経路を計算する効率的な手法となる。解剖構造(anatomical structure)や他の一般的な曲面の形状分析を例に、これらの考え方を説明する。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像分割のための階層化オブジェクトモデル
Layered Object Models for Image Segmentation (Abstract)

Yi Yang, University of California at Irvine, Irvine Sam Hallman, University of California at Irvine, Irvine Deva Ramanan, University of California at Irvine, Irvine Charless C. Fowlkes, University of California at Irvine, Irvine

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1731-1743 , September 2012

Keywords: Shape,Image segmentation,Image color analysis,Detectors,Object detection,Mathematical model,Computational modeling,segmentation benchmark.,Image segmentation,multiclass object detection,layered model,2.1D model

我々は物体検出と画像分割を目的とする階層化モデルを定式化する。我々は複数の物体検知器の出力を合成する生成的確率モデル(generative probablistic model)について説明する。この目的は形状マスクを定義し、画像を構成する全ての画素の外観、深さ順序(depth ordering)、ラベルを説明することにある。注目すべきは我々のシステムではクラスのラベルとオブジェクトインスタンスのラベルの両方を推定する点にある。物体検出と画像分割に関する従来のベンチーマーク基準に基づき、クラス分割とインスタンス分割の両方に対応する新たなスコアを定義する。本システムをPASCAL2009と同2010のデータセットを用いて評価し、人物の抽出を含む複数のカテゴリにおいて最先端技術に比類する良好な結果を示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Motion Detail Preserving Optical Flow Estimation (Abstract)
Motion Detail Preserving Optical Flow Estimation (Abstract)

Li Xu, The Chinese University of Hong Kong, Hong Kong Jiaya Jia, The Chinese University of Hong Kong, Hong Kong Yasuyuki Matsushita, Microsoft Research Asia, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1744-1757 , September 2012

Keywords: Estimation,Optimization,Optical imaging,Vectors,Adaptive optics,Image color analysis,Robustness,features.,Optical flow,image motion,video motion,variational methods,optimization

マルチスケール変分法に基づくオプティカルフロー推定における一般的な課題は、動きの詳細な構造(fine motion structure)が常に正しく推定できるとは限らないことである。この課題は特に、突発的に大きな変動が生じる領域において顕著である。本論文では新しい拡張粗密改定フレームワーク(extended coarse-to-fine refinement framework)を導入してこの課題に対応する。これによりフロー推定において粗レベルで導出された結果に基づいて設定される初期値への依存性を低減し、各スケールにおける様々な動きの詳細を再現することができる。本論文では更に、外れ値に対応するための目的関数を適用すると共に、新たな最適化手順を構築する。提案手法の有効性を、Middleburyオプティカルフロー・ベンチマーク基準と大きな動きを伴う難易度の高い実験データを用いて示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線分、楕円、外観特徴の独立した組み合わせに基づく物体認識
Object Recognition by Discriminative Combinations of Line Segments, Ellipses, and Appearance Features (Abstract)

Alex Yong-Sang Chia, Institute for Infocomm Research, Singapore Deepu Rajan, Nanyang Techological University, Singapore Maylor Karhang Leung, University Rahman, Malaysia Susanto Rahardja, Nanyang Techological University, Singapore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1758-1772 , September 2012

Keywords: Shape,Feature extraction,Training,Image edge detection,Vectors,Robustness,Image segmentation,category-level object detection.,Shape primitives,appearance features,image classification

実世界のシーンにおける物体のクラスを認識するための、単純かつ一般的な形状要素(線分や楕円)を用いた新しい輪郭ベースのアプローチを提案する。一般的に利用される輪郭の断片的な特徴と比較して、これらの形状要素のデータ量は物体サイズに依存しないことから、より効率的に表現することができる。加えてこれらの形状要素は、その幾何学的な特性に基づいて簡単に記述することができ、これに伴い特徴の比較が効率的に行える。提案手法ではこれらの形状要素の組みを形状トークンとし、この形状トークンの独立した組合せを学習する。ここで各組合せは任意の数の形状トークンを含むことができる。この特徴と形状要素自体の特性とが合わさり、クラスに特有の多数の形状構造を学習することができる。我々は輪郭ベースの手法に基づく、形状特徴と外観特徴とを組み合わせた新たなハイブリッド認識手法を提案する。形状トークンの各組み合わせは特徴の数や種類がバラバラであり、この2種類のばらつきによってハイブリッド手法はより一層の柔軟性と識別能を獲得する。多数の高難易度のクラスに対して提案手法を評価し、従来手法と遜色のない結果が得られることを示す。この結果は提案した形状要素が実世界の複雑なシーンにおいて、物体のクラスを認識する上で有効であることを示唆している。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ハフ変換を用いた複数物体検出
On Detection of Multiple Object Instances Using Hough Transforms (Abstract)

Olga Barinova, Lomonosov Moscow State University, Moscow Victor Lempitsky, Yandex, Moscow Pushmeet Kholi, Microsoft Research Cambridge, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1773-1784 , September 2012

Keywords: Transforms,Probabilistic logic,Object detection,Image edge detection,Joints,Cognition,Random variables,scene understanding.,Hough transforms,object detection in images,line detection

ハフ変換を用いて複数の物体を検出する手法は、ハフ画像においてピークを特定し識別するために細線化(nonmaxima suppression)か中央値探索(mode seeking)を行う。このような後処理では多数のパラメータを最適化する必要があるだけでなく、特に物体同士が近接して存在するケースで破綻しやすい。本論文では、ハフ変換を用いた新しい確率的な物体検出フレームワークを提案する。このフレームワークはハフ変換の単純さと汎用性を継承するだけでなく、ハフ画像における複数のピークの識別という課題を回避すると共に、経験則に基づく細線化を伴うことなく複数物体を検出することができる。実験により、従来からある直線検出だけでなく、カテゴリ・レベルの歩行者検出においても本手法による大幅な検出精度の向上が実現できたことを示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


不変な同一中心パターンに基づく眼球中心の高精度位置特定
Accurate Eye Center Location through Invariant Isocentric Patterns (Abstract)

Roberto Valenti, University of Amsterdam, Amsterdam Theo Gevers, University of Amsterdam, Amsterdam

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1785-1798 , September 2012

Keywords: Face,Feature extraction,Vectors,Image edge detection,Analytical models,Image resolution,Microwave integrated circuits,facial features detection.,Eye center location,isophotes

眼球中心を特定することで重要な情報を獲得することができ、広範な用途における活用が見込める。高精度な眼球中心位置は市販の視線方向追跡装置によって測定することが可能であるが、一般(可視光)の低解像度画像で用いる上では装置が高価であることや新たな制約が生じることから余り利用されてこなかった。本論文では外観のみを利用するシステムを提案するが、このシステムで対象とする低解像度画像では眼球中心の正確な位置特定と移動の検出までは行えない。我々の目的は、ウェブカメラなどにより撮影された低解像度画像を用いて眼球の中心を瞳孔の領域から特定することにより、このギャップを埋めることにある。提案手法では等輝度線の特性(isophote properties)を用いることで、照明条件の線形変化(コントラストや明度変化)に対する耐性を実現する。これにより平面内の回転不変性と計算コストの低減を図る。更に変倍に対する不変性を実現するために、本手法を複数のスケール(scale space pyramid)に対して適用する。本論文では、提案方式の様々な変動要因に対する頑健性を確認する。対象とする変動要因は、照明、頭部位置、大きさ、遮蔽、眼球の回転である。我々のシステムは一般的な低解像度画像における眼球中心の特定において、最先端の技術よりも高精度であることを示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


離散的に配置された複数台のカメラを用いた漸次的な動作モデル化方法
Incremental Activity Modeling in Multiple Disjoint Cameras (Abstract)

Chen Change Loy, Queen Mary University of London, London Tao Xiang, Queen Mary University of London, London Shaogang Gong, Queen Mary University of London, London

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1799-1813 , September 2012

Keywords: Cameras,Delay effects,Visualization,Context,Videos,Complexity theory,Member and Geographic Activities,incremental structure learning.,Unusual event detection,multicamera activity modeling,time delay estimation

ネットワークカメラにおける動作のモデル化と異常イベントの検出は困難な課題である。これは特にカメラの撮影範囲に重なりがない条件で顕著である。我々は複数の離散的に配置されたカメラ(disjoint cameras)における異常イベントを、コンテキストに一貫性のないパターン(context-incoherent patterns)として検出を行うことが可能であることを示す。これは単一のカメラ内および複数のカメラ間で観測される分散した局所動作の時間軸に沿った関連性を漸次的学習(incremental learning)することで実現する。具体的には、複数のカメラにおける動作を遅延つき確率的グラフィカルモデル(Time Delayed Probabilistic Graphical Model:TD-PGM)でモデル化する。ここで各ノードは各視点の部分領域における動作を表し、ノード間の有向リンク(directed links)は遅延つき依存関係(time delayed dependencies)を符号化したものである。視覚的なコンテキストの変化に対応するため、時間経過に伴って変化する遅延つき依存関係をモデル化する新たな漸次的学習モデルを定式化する。提案手法の有効性を仮想データと混雑した地下鉄駅に設置されたネットワークカメラから得られた映像とを用いて検証する。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オンライン・カーネル主成分分析:次元削減されたモデルの1形態
Online Kernel Principal Component Analysis: A Reduced-Order Model (Abstract)

Paul Honeine, Université de Technologie de Troyes, Troyes

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1814-1826 , September 2012

Keywords: Kernel,Principal component analysis,Eigenvalues and eigenfunctions,Dictionaries,Algorithm design and analysis,Data models,Training data,recursive algorithm.,Principal component analysis,online algorithm,machine learning,reproducing kernel,Oja's rule

カーネル主成分分析は、最も一般的に利用されているデータ分析や次元削減手法である主成分分析を賢く非線形に拡張したものである。本論文では、カーネル主成分分析のオンラインアルゴリズムを提案する。このために、元々は線形な主軸を抽出する目的で提唱されたカーネルベースのOjaの法則を吟味する。多くのカーネルベースの機械と同様に、モデル次元は利用可能な観測点の数に等しい。これを受け、オンラインの仕組みを構築するためにモデル次元を制御することを提案する。次元削減されたモデル(reduced-order model)を用いた際の主関数推定における誤差の上限など、理論的な特性について議論する。我々は第一主軸を求めるための再帰的なアルゴリズムを導出し、これを複数の軸に対して拡張する。実験結果から、提案手法は従来のカーネル主成分分析や反復カーネル主成分分析と比較して、合成データセットと手書き数字画像の両方に対して有効であることを示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


反射の対称性に基づく画像分割
Reflection Symmetry-Integrated Image Segmentation (Abstract)

Yu Sun, University of California, Riverside Bir Bhanu, University of California, Riverside

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1827-1841 , September 2012

Keywords: comparison of segmentation algorithms.,Local and global symmetry,region growing,symmetry affinity,segmentation and symmetry evaluation

本論文では対称性に基づく新しい領域ベースの画像分割手法を提案する。本手法は画像の対称性を利用して画像分割を改善する。これは分割の手掛り(segmentation cues)に柔軟に追加できる対称性トークン(symmetry token)を作成することにより実現する。画像中の注目領域はまずSIFTにより抽出され、左右対称性を検出するために更に絞り込まれる。その後、対称軸を用いて対称性親和度マトリックス(symmetry affinity matrix)が算出され、領域成長アルゴリズムの制約として分割領域の対称性を改善するために利用される。多目的遺伝的検索(multi-objective genetic search)により、分割性と対称性の両方が最良となる分割結果を求める。この結果は大局最適に近いものとなる。本手法は難易度の高い自然画像と人工物を含む画像とを用いた実験により評価される。この結果から提案手法は従来の画像分割手法に対して、それが対称性を利用するか否かに関わらず優位であることが分かる。実験結果の分析から、対称性は色やテクスチャなどの要素と共に、画像分割における重要な手掛りとなりうることが示唆される。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像群のカテゴリ断片の教師なし学習
Unsupervised Learning of Categorical Segments in Image Collections (Abstract)

Marco Andreetto, California Institute of Technology, Pasadena Lihi Zelnik-Manor, Technion Israel Institute of Technology, Haifa Pietro Perona, California Institute of Technology, Pasadena

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1842-1855 , September 2012

Keywords: Image segmentation,Probabilistic logic,Visualization,Shape,Image recognition,Pattern analysis,scene analysis.,Computer vision,image segmentation,unsupervised object recognition,graphical models,density estimation

分割と認識はどちらが先だろうか。我々はこれらを並列に且つ教師なしで実現する統合フレームワークを提案する。このフレームワークでは、各断片の形状や外観を表現するために柔軟な確率モデルと、認識のための"bag of visual words"モデルとを組み合わせる。画像群に対して適用すれば、提案するフレームワークは画像の断片とそれらの関連を同時に自動で検出できる。ここで繰り返し検出される断片は、画像群に複数回出現する物体の一部であると見なすことができる。したがって、このモデルを用いることで、コストのかかる手動でのアノテーションを行うことなく、新しいカテゴリの学習、物体の検出や分類、画像の分割が実現できる。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


新しい残差ベクトルのノルムの半定値計画法による最小化を用いた多次元楕円体に特化した高速なフィッティング・アルゴリズム
A Fast Algorithm for Multidimensional Ellipsoid-Specific Fitting by Minimizing a New Defined Vector Norm of Residuals Using Semidefinite Programming (Abstract)

Xianghua Ying, Peking University, Beijing Li Yang, Peking University, Beijing Hongbin Zha, Peking University, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1856-1863 , September 2012

Keywords: Vectors,Fitting,Minimization,Symmetric matrices,Programming,Surface fitting,Eigenvalues and eigenfunctions,new defined vector norm.,Multidimensional ellipsoid,ellipsoid-specific fitting,semidefinite programming

n次元空間における二次曲面は二次多項式がゼロとなる位置で定義される。二次多項式はn次元同時座標を表すn+1次元ベクトルや、二次多項式の係数から成るn+1次元の実対称行列としてコンパクトに記述することができる。n次元空間における二次曲面がn次元の楕円体であれば、先頭の(leading)n×n次元の部分主行列(principal submatrix)は、正定値(positive definite)ないし負定値 (訳者注:原文には"opposite definite"と記載されているが、役者が知る限りにおいてこれは一般的に利用されている表現ではない。文章の内容から負定値(negative definite)を意図しているものと判断し、これを訳語として選択した。)である。既に知られているように、正定値行列ないし負定値行列という制約の元では、半定値計画法(semidefinite programming)を用いることが最良の選択である。2002年までに公開された文献から得られた単純かつ直感的な知見から、Calafioreは多次元楕円体に特化したフィッティングの最初の実用的な手法を提案した。この手法では半定値計画法を用いて代数的残差ベクトル(algebraic residual vector)の2ノルムを最小化している。しかしながら、この手法ではフィッティング点数が数千を超えると、計算時間が肥大化すると共にメモリ容量が不足するという問題がある。本論文では、多次元楕円体に特化した高速かつ実装の容易なフィッティング・アルゴリズムを提案する。このアルゴリズムでは新たに定義する代数的残差ベクトルのノルムを半定値計画法により最小化することで、精度を保ちながら半定値計画法の問題を劇的に緩和する。提案手法を用いれば、数百万のフィッティング点であっても容易に処理できる。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


拡張SRC:クラス内変動辞書を用いたアンダーサンプルされた顔の認識
Extended SRC: Undersampled Face Recognition via Intraclass Variant Dictionary (Abstract)

Weihong Deng, Beijing University of Posts and Telecommunications, Beijing Jiani Hu, Beijing University of Posts and Telecommunications, Beijing Jun Guo, Beijing University of Posts and Telecommunications, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 9, pp. pp. 1864-1870 , September 2012

Keywords: Training,Dictionaries,Face recognition,Lighting,Face,Error analysis,feature extraction.,Face recognition,sparse representation,undersampled problem

スパース表現に基づく識別(Sparse Representation-Based Classification:SRC)は、近年の顔認識分野におけるブレークスルーであり、認識過程における課題を被写体の適切な学習画像により解決している。本論文では、SRCを各被写体の学習画像が非常に少ない条件に拡張する。ある被写体のクラス内変動は他の被写体のスパースな線形結合として近似できると仮説し、提案手法(Extended Sparse Representation-Based Classifier:ESRC)では学習画像とテスト画像との間に生じうる変動を表現するためのクラス内変動辞書(intraclass variant dictionary)を追加する。辞書の要素は、画像集に含まれる顔画像か画像集に含まれない一般的な顔画像の一方から計算されたクラス内のサンプル間の相違を表す。ARデータベースやFERETデータベースを用いた実験結果から、ESRCはSRCと比較してアンダーサンプルされた顔画像の様々な表情や照明条件、変装、年齢に対する汎化性能が高いことが分かる。ESRCの良好な結果は、例え各クラスの学習画像が1枚であっても、辞書を適切に構築することでSRCが大規模な顔認識用途に適用可能であることを示唆している。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.34, No.10


連続領域内パターンマッチングに対する確率的アプローチ
A Probabilistic Approach to Pattern Matching in the Continuous Domain (Abstract)

Daniel Keren, University of Haifa, Haifa Michael Werman, Hebrew University of Jerusalem, Jerusalem Joshua Feinberg, University of Haifa at Oranim, Tivon and Technion, Haifa/onm>

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. pp. 1873-1885 , October 2012

Keywords: Noise measurement,Probability distribution,Probabilistic logic,Educational institutions,Physics,Uncertainty,Pattern matching,path integrals.,Pattern matching,distance between signals,sampling,energy of a signal,regularization,probability

本稿の目的は、連続信号から得られた離散ノイズを含むサンプルに対して、一つの固定テンプレートからの距離に関する確率分布を計算するという基本課題を解決することである。単一の最適信号を考える典型的な修復問題とは対照的に、確率分布全体の計算では、信号空間全体にわたる積分が余儀なくされる。これを実現するために、我々は経路積分法を適用した。本研究では、この課題について1次元と2次元の場合を検討し、効果的な近似方法と合わせて正確な解を得た。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


新規検出を超えて: 不一致事象、一般分類と特定分類が一致しない場合。
Beyond Novelty Detection: Incongruent Events, When General and Specific Classifiers Disagree (Abstract)

Daphna Weinshall, The Hebrew University of Jerusalem, Jerusalem Alon Zweig, The Hebrew University of Jerusalem, Jerusalem Hynek Hermansky, Brno University of Technology, Brno and Johns Hopkins University, Baltimore Stefan Kombrink, Brno University of Technology, Brno Frank W. Ohl, Leibniz Institute for Neurobiology, Magdeburg Jörn Anemüller, Carl von Ossietzky University Oldenburg, Oldenburg Jörg-Hendrik Bach, Carl von Ossietzky University Oldenburg, Oldenburg Luc Van Gool, ETH, Zurich Fabian Nater, ETH, Zurich Tomas Pajdla, CTU, Prague Michal Havlena, CTU, Prague Misha Pavel, Oregon Health & Science University, Portland

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. pp. 1886-1901 , October 2012

Keywords: Data models,Training,Probabilistic logic,Electronic mail,Training data,Visualization,Dogs,out-of-vocabulary words.,Novelty detection,categorization,object recognition

不測の刺激は、どんな機械学習アルゴリズムに対しても難問である。ここに我々は、一般レベルと特定レベルの識別器が、相矛盾した予測値を与える不測事象の明確な類型を特定した。本稿では、不一致事象の表現と処理の形式フレームワークを定義し、ラベル階層の記述から始めて、如何にしてラベルの部分順序が、そのような階層から推定できるかを示した。それぞれの事象に対しては、隣接レベルのラベル階層に基づいた様々な方法で、それらの確率を算出する。不一致事象とは、僅かに詳細なレベルに基づいて計算される確率が、それよりもやや一般的なレベルに基づいて計算される確率よりもずっと小さい事象のことであり、そのことにより相反する予測値が導かれるものである。また、アルゴリズムは、様々な型の階層、応用および、広範な種類のデータ型からの不一致事象を検出するよう導出した。本稿で我々は、新規な映像音声対象と、動画における新しい動きパターンの検出に対する有望な結果を示す。また、音声認識における言外の語彙検出と、多様な音声・映像シナリオにおける不一致事象の検出についても議論する。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高速3D物体認識に対する尺度空間と類似性に基づくアスペクトグラフの結合
Combining Scale-Space and Similarity-Based Aspect Graphs for Fast 3D Object Recognition (Abstract)

Markus Ulrich, MVTec Software GmbH, Muenchen Christian Wiedemann, MVTec Software GmbH, Muenchen Carsten Steger, MVTec Software GmbH, Muenchen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. pp. 1902-1914 , October 2012

Keywords: Solid modeling,Three dimensional displays,Cameras,Computational modeling,Image edge detection,Robustness,Design automation,perspective.,3D object recognition,machine vision,aspect graphs,similarity measures,hierarchical,models,robotics,industrial automation,image generation,projections,shape,feature measurement,least squares methods

本稿では、単一のカメラ画像における3次元オブジェクトの認識、および、それらの3次元姿勢の決定に対するアプローチについて述べる。ここでは、階層モデルをオブジェクトの3D-CADモデルにおける幾何学的情報のみに基づいて生成する。本アプローチは、オブジェクト表面のテクスチャや反射光情報に依存しないため、産業やロボット利用の幅広い応用(例えば、ビン・ピッキング)に適している。また、本研究では、既存手法の典型的な課題を取り扱うことができる階層型のビューに基づくアプローチを用いる。このアプローチでは、ノイズ、隠蔽、散乱などに対し、多くの実用アプリケーションでの利用に充分なレベルで頑健で、且つコントラスト変化に対して不変な真の視野(true perspective)を扱う。さらにこの階層モデルの生成のために、尺度空間効果を考慮することのできる新モデルイメージ生成法を提案する。必要なオブジェクト視野は、類似度に基づくアスペクトグラフから導出する。完全検索の高い堅牢性は、効率の良い階層検索に組み合わせられる。3次元姿勢は、画像内の幾何学的距離を最小化する最小二乗適合により最適化する。我々のテストでは、位置精度については、オブジェクト距離に関して0.12%、方向精度に関して0.34度に至るまで最適化される。認識時間は、概ねオブジェクトの複雑さとは独立だが、主にカメラ前方に現れるオブジェクトの姿勢範囲に依存する。効率に対する理由から、当該アプローチでは用途に応じた姿勢範囲の制限を許している。典型的な処理時間は、数百ミリ秒のレンジ内である。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


コンテキストを考慮した顕在特徴抽出
Context-Aware Saliency Detection (Abstract)

Stas Goferman, Israel Institute of Technology, Haifa Lihi Zelnik-Manor, Israel Institute of Technology, Haifa Ayellet Tal, Israel Institute of Technology, Haifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. pp. 1915-1926 , October 2012

Keywords: Feature extraction,Context,Visualization,Object recognition,Estimation,Image color analysis,Humans,context aware.,Image saliency,visual saliency

我々は、新しいタイプの顕在特徴 - context-aware saliency - を提案する。その目的は、シーン全体を代表する画像領域の検出である。この定義は、注視点の識別や、主要オブジェクトの検出を目的とする従来の定義とは異なっている。本研究では、これらの顕在特徴の定義に従って、心理物理学的文献に見られる4つの原理に基づく検出アルゴリズムを提案する。また、主要オブジェクトのコンテキストだけが、オブジェクト自身と同等に本質的であるような2つの応用により、これらの提案アプローチの利点を評価する。我々は、画像の目標変更において、この顕在特徴を用いることで、重要領域内の歪みが防止されることを示す。要約では、我々の提案する顕在特徴が、簡潔かつ魅力的で情報豊かな要約生成に役立つことを示す。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


コンセプトに基づいた映像索引付けに対する交差領域マルチキュー融合
Cross-Domain Multicue Fusion for Concept-Based Video Indexing (Abstract)

Ming-Fang Weng, National Taiwan University, Taipei Yung-Yu Chuang, National Taiwan University, Taipei

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. pp. 1927-1941 , October 2012

Keywords: Correlation,Indexing,Semantics,Feature extraction,Training data,Training,Detectors,trecvid.,Video annotation,concept detection,cross-domain learning,contextual correlation,temporal dependency

映像検索ニーズに応じるために近年提案されているクエリ生成の良否は、コンセプトに基づいた映像索引づけの精度に大きく依存する。しかし残念なことに、映像セグメント内のコンセプトを認識することや、それを目的言語記述に展開することには、意味的ギャップに関する課題が残されている。意味的ギャップとは、機械により抽出された低レベルの特徴と、人間の高レベルの概念解釈間の対応の欠落のことである。本稿では、そのようなギャップを軽減することを目的とした次の3つの課題について検討する。それらは、1) いかに低レベル特徴の背景にあるキュー(cue : 手掛かり)を探索するか、2) いかに多様なキューを効率改善に結びつけるか、3) いかに学習した知識を、新規な領域への適用に役立たせるかである。これらの課題を解決するために、我々は、複数の映像領域に渡って複数キューを結合的に活用する一つのフレームワークを提案する。最初に、このフレームワークでは、注釈から概念間の関係とショット間の関係を、共に学習するための再起的アルゴリズムを提案する。次いで、単一の融合モデルを用いて、全ショットに対する全てのコンセプトラベルを更新する。加えて、まだ見ていないショットには、それらの初期予測スコアが、コンテキスト上および時系列上の関係を学習できるように、疑似ラベルを割り当てる。これにより、付加的な人的労力が不要となる。訓練および学習用の映像セット内に埋め込まれたキューの集積は、領域変化に適応する。また、我々のフレームワークが効果的で、一般的基準を超える著しい改善を果たしていることを、良く知られているベンチマーク実験により示す。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


分離可能オブジェクト検出: ベースラインの短いビデオからの分離と深さ順位付け
Detachable Object Detection: Segmentation and Depth Ordering from Short-Baseline Video (Abstract)

Alper Ayvaci, University of California, Los Angeles Stefano Soatto, University of California, Los Angeles

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. pp. 1942-1951 , October 2012

Keywords: Motion segmentation,Optimization,Image segmentation,Foot,Layout,Linear programming,Mathematical model,model selection.,Object detection,video segmentation,occlusion,layers,graph cuts,ordering constraints

本稿で我々は、動画像を領域へ分離するアプローチについて述べる。分離領域は、部分的に媒体で覆われたシーン内の面に対応する。本アプローチでは、見た目と動きの統計量を共に一つのコスト関数に統合する。コスト関数は、隠蔽領域をシードとして、線形計画問題を解くことにより効率を最小化する。オブジェクトが分離可能かどうかを決定するのに不十分な観察時間の短い場所では、最適化の結果を、より長尺の映像データに基づく高コストな最適化問題のシードとして使用することができる。得られる結果は、不定で個数も未知のオブジェクトを、検出・分離する完全な教師なしスキームである。我々は、このスキームを、我々のアプローチのポテンシャルと限界を浮かび上がらせるために評価する。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


極小パスを用いた、未知の端点と任意トポロジーを持つ曲線の検出
Detecting Curves with Unknown Endpoints and Arbitrary Topology Using Minimal Paths (Abstract)

Vivek Kaul, Georgia Institute of Technology, Atlanta Anthony Yezzi, Georgia Institute of Technology, Atlanta Yichang (James) Tsai, Georgia Institute of Technology, Savannah

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. pp. 1952-1965 , October 2012

Keywords: Motion segmentation,Optimization,Image segmentation,Foot,Layout,Linear programming,Mathematical model,model selection.,Object detection,video segmentation,occlusion,layers,graph cuts,ordering constraints

本稿で我々は、動画像を領域へ分離するアプローチについて述べる。分離領域は、部分的に媒体で覆われたシーン内の面に対応する。本アプローチでは、見た目と動きの統計量を共に一つのコスト関数に統合する。コスト関数は、隠蔽領域をシードとして、線形計画問題を解くことにより効率を最小化する。オブジェクトが分離可能かどうかを決定するのに不十分な観察時間の短い場所では、最適化の結果を、より長尺の映像データに基づく高コストな最適化問題のシードとして使用することができる。得られる結果は、不定で個数も未知のオブジェクトを、検出・分離する完全な教師なしスキームである。我々は、このスキームを、我々のアプローチのポテンシャルと限界を浮かび上がらせるために評価する。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効率的整数線形計画法による平均分割
Ensemble Segmentation Using Efficient Integer Linear Programming (Abstract)

Amir Alush, Bar-Ilan University, Ramt-Gan Jacob Goldberger, Bar-Ilan University , Ramt-Gan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. pp. 1966-1977 , October 2012

Keywords: Image segmentation,Clustering algorithms,Reliability,Correlation,Humans,Optimization,Approximation algorithms,EM algorithm.,Image segmentation,ensemble segmentation,integer linear programming,correlation clustering

本稿で我々は、一つの画像に対する幾つかの分割要素を、単一の分割要素に結合する手法を提案する。結合結果は、分割結果の信頼性と精度を達成するための、ある意味での平均分割である。本研究の目標は、個々の分割全てに近い、"分割空間(space of segmentations)"内の点を見つけることである。ここでは、分割結果を平均化するアルゴリズムを提案する。提案アルゴリズムでは、最初に画像をスーパーピクセルに過分割する。次いで、各分割をスーパーピクセル・マップ上に射影する。そして、平均分割を得るために、整数線形計画法に結びつけられたEMアルゴリズムを、近傍スーパーピクセルの二分決定木による結合集合に適用する。また本アルゴリズムは、分割要素の平均化とは別に、各分割の信頼性もレポートする。また、提案アルゴリズムの効率は、バークリー・セグメンテーション・データセットから手作業でアノテーション付けされた画像上と、自動分割アルゴリズムの結果上で立証する。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


微小画像探査: 機械と人の物体認識に対する外観情報とコンテキスト情報の役割。
Exploring Tiny Images: The Roles of Appearance and Contextual Information for Machine and Human Object Recognition (Abstract)

Devi Parikh, Toyota Technological Institute Chicago, Chicago C. Lawrence Zitnick, Microsoft Research, Redmond Tsuhan Chen, Cornell University, Ithaca

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. pp. 1978-1991 , October 2012

Keywords: Context,Image resolution,Image segmentation,Humans,Image recognition,Context modeling,Computational modeling,human studies.,Object recognition,context,tiny images,blind recognition,image labeling

通常、物体認識は単に物体の外観に基づいて機能する。しかしながら、適切な情報は、物体を取り巻くシーン中にも存在する。本稿では、外観とコンテキスト情報が物体認識において演じる振る舞いを検討する。機械実験とヒトの研究を通じて、我々は、コンテキスト情報が、画像解像度のような外観情報の質により変化することの重要性を示す。我々の機械実験は、共起性に加え、相対配置と相対スケールを用いることを通して、物体カテゴリ間のコンテキストを明示的にモデル化する。このコンテキスト・モデルを用いることで、我々のアルゴリズムは、MSRCとCorelデータセット上で、最高性能を達成する。我々は、機械および人間被験者に対して、目前の外観情報量が明確に異なる低解像および高解像の画像上で認識テストを実施した。実施したのは、物体の外観情報を抜きにしたコンテキスト情報のみを用いる場合(目隠し認識)だけでなく、物体の外観情報だけを用いる場合と、外観とコンテキストを組み合せる場合である。また、異なるソースによるコンテキスト(共起性、相対配置、および、相対スケール)の影響も検討し、異なるタイプのコンテキスト情報が、MSRCやPASCALのような、データセットに渡って著しく変化することの重要性を発見した。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スパース近似された画像集合間の最近点を用いた顔認識
Face Recognition Using Sparse Approximated Nearest Points between Image Sets (Abstract)

Yiqun Hu, The University of Western Australia, Crawley Ajmal S. Mian, The University of Western Australia, Crawley Robyn Owens, The University of Western Australia, Crawley

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. pp. 1992-2004 , October 2012

Keywords: Approximation methods,Optimization,Data models,Vectors,Hidden Markov models,Kernel,Adaptation models,convex optimization.,Image set classification,face recognition,sparse modeling

我々は、画像集合の分類に対する十分かつロバストな解を提案する。提案する画像集合の結合表現は、集合の画像サンプルと、それらのアフィン包モデルを含む。このモデルは、サンプル画像のアフィン結合の形式で未知の外観を計算する。集合間距離を計算するために、我々は、スパース近似最近点(SANP: Sparse Approximated Nearest Point)を導入する。SANPは、2つの画像集合の各点が、個々の集合の画像サンプルにより、スパースに近似することのできるような最も近い点である。この新しいスパース定式化は、サンプル係数のスパース性を強制する。そして、最近点とそれらのスパース近似を同時に最適化する。標準的なスパースコーディングと異なり、スパース近似されるデータは固定されない。ここでは、凸定式化を、2つの集合間の最適SANPを見つけるために提案する。また、加速近接勾配法(accelerated proximal gradient method)は、本最適化問題を効率的解くようチューニングする。本稿では、SANPのカーネル拡張の導出と、各画像集合の組をマッチングしながら行うRBFカーネルパラメータの動的チューニングに対するアルゴリズムも提示した。UCSD/HondaやCMY MoBo、および YouTubeの著名人らの顔データ上での総合的な実験により、我々の手法が、一貫して最先端の性能を凌いでいることを示す。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最適縦列接続学習
Learning Optimal Embedded Cascades (Abstract)

Mohammad Javad Saberian, UC San Diego, La Jolla Nuno Vasconcelos, UC San Diego, La Jolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. pp. 2005-2018 , October 2012

Keywords: Boosting,Detectors,Training,Optimization,Algorithm design and analysis,Object detection,Computer architecture,boosting.,Computer vision,real-time object detection,embedded detector cascades

埋め込みオブジェクトの(弱)識別器のカスケード(縦列接続)に関する、自動最適化デザイン問題について考察した。ここでは、カスケード配置の最適化と、個々のカスケードステージの最適化の二つの主要課題を確認する。これらは、検出率制約下におけるクラス分類の精度と速度のトレードオフを達成するよう最適化される。これらの問題に取り組むために、二つの新規なブースティング・アルゴリズムを提案する。一つ目のRCBoostでは、バリア・ペナルティ法によって解かれる条件付き最適化問題として、ブースティングを定式化する。制約条件は、ブースティング・プロセスの全反復で直面するターゲット検出率である。これは、配置が既知の埋め込みカスケードの設計を、広範囲の相互検証や経験則なしで可能にする。二つ目のECBoostは、分類のリスクと速度との間のトレードオフの最適化を達成するためにカスケード配置上を探索する。これら二つのアルゴリズムは、全体的なブースティング手続きであるRCECBoostとして統合される。それは、カスケード配置と、その検出率制約下でのステージの双方を、全て自動化された方式で最適化する。顔・車・歩行者・パンダ検出の広範な実験は、得られた検出器が、それまでの手法より優れた精度と速度のトレードオフを達成していることを示している。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


低解像度顔画像マッチングに対する多次元スケーリング
Multidimensional Scaling for Matching Low-Resolution Face Images (Abstract)

Soma Biswas, University of Notre Dame, Notre Dame Kevin W. Bowyer, University of Notre Dame, Notre Dame Patrick J. Flynn, University of Notre Dame, Notre Dame

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. pp. 2019-2030 , October 2012

Keywords: Face,Probes,Training,Face recognition,Cameras,Spatial resolution,iterative majorization.,Face recognition,low-resolution matching,multidimensional scaling

顔認識性能は、低解像度(LR: Low Resolution)の入力画像では著しく低下する。そのような画像は、監視カメラや長距離から撮られた画像によく見られる。本稿では、低解像のクエリ画像(probe image)と高解像度のリポジトリ画像(gallery image)とをマッチングするために、多次元尺度構成法(MDS : Multidimensional Scaling)を用いた新規アプローチを提案する。このような条件でのマッチングは、本システムが導入される環境では、しばしば見られるものである。理想的なシナリオは、クエリ画像とリポジトリ画像がともに、異なる対象を区別するのに十分高い解像度である。本提案方法は、低解像度のクエリ画像と高解像度のリポジトリ画像を、共通の空間に同時に埋め込む。変換された空間内でのそれらの距離は、両者の解像度が共に高解像度の場合の距離に近似されるようになっている。ここでは、二つの写像を、反復マジョリゼーション・アルゴリズム(iterative majorization algorithm)を用いて、高解像度の訓練画像から同時に学習する。また、8 x 6 画素の低解像度クエリ画像を用いたMulti-PIE データセット上での提案アプローチの広範囲な評価により、当該方法の有用性を示す。さらに本稿では、低解像度領域や、認識事前の高解像度テスト画像を得る為の超解像技術を用いたマッチング性能に比べて、提案アプローチがマッチング性能を大いに改善することを示す。また、監視カメラの顔データベースによる、低解像度監視画像での実験により、本アプローチの有効性を明らかにする。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


輝度順位プーリングを用いた回転不変記述子
Rotationally Invariant Descriptors Using Intensity Order Pooling (Abstract)

Bin Fan, Chinese Academy of Sciences, Beijing Fuchao Wu, Chinese Academy of Sciences, Beijing Zhanyi Hu, Chinese Academy of Sciences, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. pp. 2031-2045 , October 2012

Keywords: Image matching,Object recognition,Estimation error,Detectors,Robustness,Lighting,Feature extraction,SIFT.,Local image descriptor,rotation invariance,monotonic intensity invariance,image matching,intensity orders

本稿は、着目領域記述に対する新規な方法を提示する。それは、局所特徴量を、複数の支持領域での輝度順位に基づいてプールする。輝度順位に基づくプーリングは、回転や単調な輝度変化に対して不変であるばかりでなく、順位情報を記述子内に符号化する。本稿では、2種類の局所特徴量を用いる。一つは勾配に基づき、もう一つは輝度に基づくものである。そこから、次の二つの識別子が取得される。多支持領域順位ベース勾配ヒストグラム (MROGH: Multisupport Region Order-Based Gradient Histogram)と、多支持領域回転および強度単調不変識別子 (MRRID: Multisupport Region Rotation and Intensity Monotonic Invariant Descriptor)である。輝度順位プーリング法により、これら二つの識別子は、参照方向推定を要しない回転不変量となる。こういった回転不変性(に関する計算)は、SIFT (Scale Invariant Feature Transform)やSURF、DASYのような、たいていの既存手法の主要な誤差要因となっている。本稿では、画像マッチングとオブジェクト認識における有望な実験結果により、最新の識別子との比較における提案識別子の有効性を示す。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


SARレベルセット法アプローチとGA0モデルに基づく画像分割
SAR Image Segmentation Based on Level Set Approach and {¥cal G}_A^0 Model (Abstract)

Regis C. Pinheiro Marques, Federal University of Ceara, Fortaleza Fátima N. Medeiros, Federal University of Ceara, Fortaleza Juvencio Santos Nobre, Federal University of Ceara, Fortaleza

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. pp. 2046-2057 , October 2012

Keywords: Level set,Image segmentation,Mathematical model,Data models,Equations,Synthetic aperture radar,Speckle,G-amplitude zero distribution.,Speckle,SAR image,segmentation,level sets,energy functional

本稿では、合成開口レーダー (SAR : Synthetic Aperture Radar) 画像の画像分割法を提案する。ここでは、レベルセット法に結びつけられたSAR画像分割に対するGA0 分布パラメータを考える。GA0 分布はG分布のクラスに属している。G分布は、データのモデリングを目的として、振幅SAR画像の様々な領域のモデル化に、有効に活用されてきたものである。このような統計データモデルは、領域マッピングとして機能するエネルギー関数を導く基礎となる。これは、SAR画像を、均質・不均質・あるいは著しく不均質、な領域に分割する我々のレベルセット伝搬数値スキームに入力される。さらに我々は、このアプローチのロバスト性と精度を定量化するための、統計的距離とGA0 モデルに基づく評価手順を導入する。本稿では、合成画像および実際のSARデータを用いた実験により、本アルゴリズムの正確さを示す。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


深度カメラおよびカラーカメラの校正と歪み補正の結合
Joint Depth and Color Camera Calibration with Distortion Correction (Abstract)

Daniel Herrera C., University of Oulu, Oulu Juho Kannala, University of Oulu, Oulu Janne Heikkilä, University of Oulu, Oulu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. pp. 2058-2064 , October 2012

Keywords: Cameras,Calibration,Image color analysis,Mathematical model,Sensors,Optical distortion,Equations,Kinect.,Camera calibration,depth camera,camera pair,distortion

我々は、2台のカラーカメラと1台の深度カメラ(depth camera)、および、それらの相対姿勢を同時校正するアルゴリズムを提案する。この方法は、3つのキー特性を持つように設計されている。正確性、実用性、広範なセンサへの適用可能性である。本方法は、さまざまな姿勢から撮像すべき平面的な表面のみを必要とする。校正は、深度画像における深度不連続性を用いないため、ノイズに対して柔軟で堅牢になっている。我々は、本校正をキネクトに適用するとともに、深度センサに対する新しい深度歪みモデルを提示する。我々は、工場出荷校正に対する改善精度を示す実験を実施した。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


力学系の安定性解析による群衆シーンの挙動特定
Identifying Behaviors in Crowd Scenes Using Stability Analysis for Dynamical Systems (Abstract)

Berkan Solmaz, University of Central Florida, Orlando Brian E. Moore, University of Central Florida, Orlando Mubarak Shah, University of Central Florida, Orlando

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. pp. 2064-2070 , October 2012

Keywords: Trajectory,Eigenvalues and eigenfunctions,Jacobian matrices,Tracking,Stability analysis,Algorithm design and analysis,Training,crowd behaviors.,Video scene analysis,dynamical systems

本稿では、映像シーンにおける5つの群衆挙動(ボトルネック、わき出し、レーン(小道)、アーチ、遮断)を特定する方法を提示する。本アルゴリズムにおいて、シーンは、オプティカル・フローで定義される力学系を初期化する粒子グリッドに重ねられる。力学系の時間積分は、シーン内の動きを表現する粒子軌跡を与える。こうした軌跡は、シーン内の着目領域を探し出すことに利用される。力学系の線形近似は、ヤコビ行列を通じて挙動の分類を与える。固有値は、フローの力学的安定点を決定し、5つの群衆挙動の内の一つと関連する各安定点の型を決定する。これらの固有値は、線形近似および関連する挙動に一致する着目領域においてのみ考慮される。このアルゴリズムをビデオの部分映像(sequential clip)に逐次適用し、挙動変化を示唆する固有値の変化を記録する。本方法のテストは、60本の群衆通行のビデオ上で行った。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


符号化露光PSF(Point Spread Function)の設計と推定
Design and Estimation of Coded Exposure Point Spread Functions (Abstract)

Scott McCloskey, Honeywell Labs, Golden Valley Yuanyuan Ding, Epson Research and Development Jingyi Yu, University of Delaware, Newark

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. pp. 2071-2077 , October 2012

Keywords: Estimation,Measurement,Image edge detection,Correlation,Image reconstruction,Noise,Acceleration,computational photography.,Coded exposure,motion deblurring,blur estimation

我々は、符号化露光を用いた動きボケ補正の問題を扱う。このアプローチでは、良設定の逆畳み込み(deconvolution)を経由して、鮮鋭な潜像の正確な推定を可能にし、伝統的シャッターで取り込まれた画像の修復不能な画像コンテンツ欠損を回避する。この領域における、これまでの研究では、手作業によるユーザ入力か、アルファ・マッティング・アプローチ(alpha matting approach ※)が、取得画像からの符号化露光PSFの推定に用いられてきた。自動ぶれ補正やマッティングアプローチの限界を回避するために、我々は、符号化露光PSF推定に対するフーリエ領域での統計的アプローチを提案する。このアプローチにより、一定速度、一定加速度、および調和運動の場合には、潜像推定が可能となる。さらに我々は、これまで用いられてきた符号化露光PSFの選定基準では、最適復元エラーにより、前述のような潜像推定ができないことを示す。また、自然画像統計の組み入れにより、潜像推定の二乗平均平方根誤差(RMSE)を、さらに30%低減できることを示す。 ※訳注) alpha matting : アルファチャネルを利用したつや消し(matting)

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.34, No.11


連鎖的グラフ進化による老化モデル
A Concatenational Graph Evolution Aging Model (Abstract)

Jinli Suo, Tsinghua University, Beijing Xilin Chen, Chinese Academy of Sciences, Beijing Shiguang Shan, Chinese Academy of Sciences, Beijing Wen Gao, Peking University, Beijing Qionghai Dai, Tsinghua University, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 11, pp. pp. 2083-2096 , November 2012

Keywords: Aging,Face,Active appearance model,Correlation,Computational modeling,Data models,Muscles,ANOVA,Face aging,aging model evaluation,long-term aging,short-term aging

長期間に渡る顔の老化過程をモデル化することは、顔認識やアニメーションにおいて非常に重要である。しかし、モデル学習に適した長期間の顔の老化過程の記録は不足している。この問題に対処するために、我々は連鎖的グラフ進化(Concatenational Graph Evolution, CONGRE)を用いた老化モデルを提案する。この手法は空間と時間の両側面に分解戦略(decomposition strategy)を適用し、部分的に密な老化データベースから長期的な老化過程を学習する。空間的側面から、我々はグラフィカルな顔表現を構築し、人間の顔を解剖学的見地(anatomical guidance)から相互に関連のある部分領域に分割する。時間的側面から、先述のグラフィカルな表現の長期的な進化を短期的なパターンの連鎖としてモデル化する。この短期的なパターンは、隣接する短期的なパターン間の平滑性に関する制約と、部分領域間の一貫性に関する制約とから成る老化過程のマルコフ性に従う。提案手法は更に、顔の老化の多様性を考慮するために、短期的なパターン間の確率的連鎖戦略(probabilistic concatenation strategy)を提案すると共に、老化予測に学究的標本抽出(scholastic sampling)を適用する。提案手法の妥当性を検証するために、学習済みのモデルにより生成された老化予測の結果を主観評価と客観評価の双方から評価する。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カメラとレーザレンジファインダの外部キャリブレーションの最小解
A Minimal Solution for the Extrinsic Calibration of a Camera and a Laser-Rangefinder (Abstract)

Francisco Vasconcelos, University of Coimbra, Coimbra João P. Barreto, University of Coimbra, Coimbra Urbano Nunes, University of Coimbra, Coimbra

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 11, pp. pp. 2097-2107 , November 2012

Keywords: Calibration,Cameras,Equations,Lasers,Three dimensional displays,Vectors,Sensors,sensor fusion,Extrinsic calibration,laser-rangefinder,euclidean registration,minimal problems

本論文では、遠近投影カメラ(perspective camera)と不可視な二次元レーザレンジファインダとの外部キャリブレーションに用いる新しいアルゴリズムを紹介する。キャリブレーションは、チェッカーボードパターンを自由に動かすことでカメラ座標系における平面の姿勢を得ると共に、対応するフレームにおけるレーザレンジファインダの距離計測結果を得ることで実現する。2つのセンサ間の厳密な距離推定は、3次元空間において平面群や直線群の位置合わせ問題の一種として定式化できる。3つの平面-直線間の関係は、最大で8つの解を取り得、一般的なP3P問題(perspective-three-point problem)(*1)や線形方程式群(linear system of equations)を解くことで求められることを初めて証明する。これによりRANSACパラダイムにおける仮説生成器として利用できる、外部キャリブレーションの最小閉形解(minimal closed-form solution)を得ることができる。シミュレーションと実際の実験により、我々のキャリブレーション手法の妥当性を検証する。この実験により、提案手法は最先端の手法を凌駕し、最小で5つの入力平面で済むことを示す。(*1) P3P問題:相対的な位置関係が既知である3次元空間内の3点の位置を、透視投影画像上から推定する問題

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き文字検出に適用するためのモデルベースの系列類似度
A Model-Based Sequence Similarity with Application to Handwritten Word Spotting (Abstract)

José A. Rodríguez-Serrano, Xerox Research Centre Europe, Meylan Florent Perronnin, Xerox Research Centre Europe, Meylan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 11, pp. pp. 2108-2120 , November 2012

Keywords: Hidden Markov models,Vectors,Computational modeling,Visualization,Training,Feature extraction,Handwriting recognition,hidden Markov model,Handwriting recognition,word spotting,image retrieval

本論文では、ベクトル系列間の類似度を評価する新たな尺度を提案する。我々はモデルベースのアプローチに基づき、まず各系列を隠れマルコフモデル(Hidden Markov Model, HMM)に当てはめ、次にHMM間の類似度を計算する。我々は半連続的HMM(SemiContinuous HMM, SC-HMM)を用いて系列をモデル化することを提案する。SC-HMMはHMMの一形態であり、各状態の出力確率(emission probability)は共用ガウス分布の混合(mixture of shared Gaussians)として表現される。この重要な制約には大きく二つの利点がある。第一に、ガウス分布の共用セットが格納する事前情報(priori information)によって、HMMパラメータをより高精度に推定できる。第二に、二つのSC-HMM間の類似度計算をこれらの混合比ベクトル間の動的時間伸縮(Dynamic Time Warping, DTW)(*2)として簡略化でき、計算コストを劇的に低減できる。3種類のデータベースを用いて手書き文字を検索する実験を行う。対象としたデータベースは、独自の実際の手書き文字データセット、George Washingtonデータセット、並びにアラビア語手書き文字のIFN/ENITデータセットである。これらの実験結果から、提案した類似度はオリジナルの系列間のDTWや一般的な連続的HMM(continuous HMM)を用いるモデルベースのアプローチを上回る性能を持つことを示す。加えてこの性能向上は、計算コストの劇的な削減と引き換えることもできることを示す。 (*2) 動的時間伸縮法:時間または早さの異なる2つの信号シーケンスの間の類似度を測るアルゴリズム

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ステレオビジョンの信頼度尺度に対する定量評価
A Quantitative Evaluation of Confidence Measures for Stereo Vision (Abstract)

Xiaoyan Hu, Stevens Institute of Technology, Hoboken Philippos Mordohai, Stevens Institute of Technology, Hoboken

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 11, pp. pp. 2121-2133 , November 2012

Keywords: Cost function,Estimation,Reliability,Error analysis,Stereo image processing,Benchmark testing,Pattern matching,distinctiveness,Stereo vision,3D reconstruction,confidence,correspondence

ステレオマッチングにおける17種類の信頼度尺度に対する詳細な比較評価の結果を示す。これらの信頼度尺度には、最も広範に用いられている尺度だけでなく、本稿において提案する新たな尺度も含まれる。我々はまず、各手法が考慮するステレオコスト推定の性質に基づいて分類し、続いて各手法の利点と欠点を評価する。評価実験には正解付きの両眼やマルチベースラインのデータセットを用い、勝者総取り(winner-take-all)方式で行う。この実験では、正解らしさに基づいて深度推定結果を並べ替える性能、遮蔽された画素を検出する性能、そして各画素に対する複数の仮説から適切なものを選択して高精度な深度マップを生成する性能を各信頼度尺度に対して計測する。我々の活動の動機は、急速に成熟化しつつあるステレオ分野の文献にこのような評価が欠けており、また我々の知見が両眼や多視点ステレオの分野の研究者にとって有益であるという考えに基づいている。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多節形状モデルの埋込検索
Embedding Retrieval of Articulated Geometry Models (Abstract)

Gary K.L. Tam, University of Durham, Durham Rynson W.H. Lau, City University of Hong Kong, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 11, pp. pp. 2134-2146 , November 2012

Keywords: Manifolds,Geometry,Computational modeling,Databases,Delta modulation,Histograms,Feature extraction,geometry recognition,Geometry retrieval,articulated model retrieval,geometry analysis

コンピュータゲームやアニメーションの人気により、3次元多節形状モデル(3D articulated geometry model)の検索に関する研究が近年脚光を浴びている。しかしながら、従来技術の大多数はモデルを表現するために高次元特徴を抽出するため、実用上の制約が課される。第一に、高次元特徴の位置ずれはユークリッド距離の信頼性を低下させることで、検索精度に影響を与える。 第二に、次元の呪いが効率の低下を招く。本論文において、我々はこれらの手法の実用性を向上させるための埋め込み検索フレームワーク(embedding retrieval framework)を提案する。この手法は多様体学習(manifold learning)の1手法である拡散マップ(Diffusion Map, DM)に基づいている。特徴対の距離は低次元空間に射影される。これによりクラス間の距離が強調されるため、検索精度が向上する。その後、密度重み付きNystrom拡張(density-weighted Nystrom extension)を適用すると共に、Nystrom埋め込み(Nystrom embedding)を固有値ソルバ埋め込み(eigensolver embedding)に局所的に揃える新たな手法を提案し、拡張誤差(extension error)の削減を図ると共に検索精度を維持する。最後に、カーネル行列を複数の類似度尺度を用いて拡張すると共にエッジを短絡させることで、不連結な多様体を扱う統計的手法を提案する。更に、DMパラメータの選択方法についても議論する。2種類の既存のマッチングアルゴリズムを用いて実験を行う。この実験結果から高抽出率における信頼度の向上と高速化が示される。本稿には、多様体に属するマルチメディアデータのマッチングに用いることのできるロバストな検索フレームワークが示される。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


視覚的計量文献学のための経験的モード分解
Empirical Mode Decomposition Analysis for Visual Stylometry (Abstract)

James M. Hughes, Dartmouth College, Hanover Dong Mao, Michigan State University, East Lansing Daniel N. Rockmore, Dartmouth College, Hanover and The Santa Fe Institute, Santa Fe Yang Wang, Michigan State University, East Lansing Qiang Wu, Middle Tennessee State University, Murfreesboro

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 11, pp. pp. 2147-2157 , November 2012

Keywords: Visualization,Art,Shape,Kernel,Vectors,Wavelet analysis,Electronic mail,image processing.,Empirical mode decomposition,stylometry,classifier

本論文では経験的モード分解(Empirical Mode Decomposition, EMD)による分析が、視覚芸術(visual arts)における固有のスタイルを計測、比較する定量的手法を開発する視覚的計量文献学(visual stylometry)に応用できることを示す。特に、我々は画像に対するEMD分析の新しい手法を導入し、この結果をサポート・ベクトル・マシン(Support Vector Machine, SVM)に基づく高性能なスタイル分類器を構築する際のベースとして利用可能であることを示す。我々は方法論を示すと共に、絵画を電子的に読み取った2種類のデータセットを用いて評価する。これらのデータセットは、フランドル地方の偉大な芸術家であるPieter Bruegel the Elder(1525-1569)の作品、並びにオランダが生んだ偉人Rembrandt van Rijn(1606-1669)とその弟子達の作品の本物と贋作である。本実験による肯定的な結果から、EMDベースの手法は視覚的計量文献学において有望であることが示唆される。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


表面メッシュの三次元幾何学モーメントの高速な再帰演算法
Fast Recursive Computation of 3D Geometric Moments from Surface Meshes

Patrice Koehl, University of California, Davis and National University of Singapore, Singapore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 11, pp. pp. 2158-2163 , November 2012

Keywords: Shape,Equations,Approximation methods,Approximation algorithms,Mathematical model,Computational complexity,discrete convolution,3D geometric moments,exact algorithm

表面の非構造化三角形分割(unstructured triangulation)により規定される均一な形状(homogeneous shape)の三次元幾何学モーメントを計算する正確なアルゴリズムを新たに提案する。本アルゴリズムは表面の三角形群と中心点により定義される四面体のモーメントに対する解析積分(analytical integration)と、対応する積分間に存在する再帰的な関連性を利用する。これにより、表面メッシュにおける三角形の数と計算するモーメント数に対して線形な時間計算量(running time complexities)を実現する。提案手法によりN次モーメントまでの計算時間を、厳密解を求める最速の従来手法のN^6からN^3まで削減することができる。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時間情報を保存する歩行テンプレートによる人物識別
Human Identification Using Temporal Information Preserving Gait Template (Abstract)

Chen Wang, Fudan University, Shanghai Junping Zhang, Fudan University, Shanghai Liang Wang, Chinese Academy of Sciences, Beijing Jian Pu, Fudan University, Shanghai Xiaoru Yuan, Peking University, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 11, pp. pp. 2164-2176 , November 2012

Keywords: Hidden Markov models,Feature extraction,Legged locomotion,Humans,Image recognition,Data mining,Computational modeling,pattern recognition,Computer vision,gait recognition,biometric authentication

歩行エネルギー画像(Gait Energy Image, GEI)は歩行による人物識別に適したテンプレートである。しかし、この様なテンプレートでは歩行認識の性能に欠かせない歩行系列の時間情報が失われてしまう。この問題を解決するため、本論文では時間歩行画像(Chrono-Gait Image, CGI)と名づける新たな時間テンプレートを提案する。提案するCGIテンプレートは、まず各歩行フレームから輪郭を抽出し、続いてマルチチャネル・マッピング関数により同一の歩行系列における歩行輪郭画像を符号化し、最後にこれらを1枚のCGIに統合する。更に、複雑な背景に対してテンプレートを頑強にするため、様々な歩行周期や輪郭変形手法(contour distortion techniques)を用いてCGIベースの実時間情報と仮想時間情報を保存するテンプレート(real and synthetic temporal information preserving templates)を提案する。3種類の歩行データベースを用いた詳細な実験から、歩行認識における頑強性と効率性の観点で提案手法が最新の歩行認識技術に比類すること示される。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高速カーネルマシンを用いたFlickrグループの画像類似性学習
Learning Image Similarity from Flickr Groups Using Fast Kernel Machines (Abstract)

Gang Wang, Nanyang Technological University and Advanced Digital Science Center, Singapore Derek Hoiem, University of Illinois at Urbana-Champaign, Urbana David Forsyth, University of Illinois at Urbana Champaign, Urbana

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 11, pp. pp. 2177-2188 , November 2012

Keywords: Kernel,Training,Support vector machines,Histograms,Visualization,Feature extraction,Euclidean distance,image organization,Image similarity,kernel machines,stochastic gradient descent,online learning,image classification

コンピュータビジョンにおいて画像の類似性を評価することは重要な課題である。本論文において、我々はFlickrの画像グループを用いて学習を行うことで、画像類似性を評価することを提案する。このために、103種類のFlickrグループを選択し、テスト画像を1対他(one-versus-all)のマルチクラス識別器によりグループに分類し、この識別結果を特徴する特徴ベクトル間の距離を計算することで画像類似性を評価する。CorelデータセットとPASCAL VOC 2007データセットを用いた実験において、提案手法は画像の照合、検索、並びに分類において従来の画像特徴を用いる手法よりも高い性能を示す。この評価尺度を構築するためには、大規模なデータを高速に学習でき且つ高精度な1対他の識別器が必要である。これを実現するために、ヒストグラム分割カーネルを用いたSVM識別器を利用した。我々は確率的分割カーネルマシン(Stochastic Intersection Kernel MAchine, SIKMA)学習アルゴリズムと名付けるこの高速な新しい学習アルゴリズムについて説明する。本手法により、何万ものデータに対して線形識別器よりも高精度なカーネル識別器をものの数分で実現できる。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像ウィンドウの物体らしさの計測
Measuring the Objectness of Image Windows (Abstract)

Bogdan Alexe, ETH Zurich, Zurich Thomas Deselaers, Google Zurich, Zurich Vittorio Ferrari, ETH Zurich, Zurich

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 11, pp. pp. 2189-2202 , November 2012

Keywords: Detectors,Image edge detection,Image segmentation,Kernel,Image color analysis,Training,Area measurement,object recognition,Objectness measure,object detection

画像ウィンドウが何らかのクラスの物体を含んでいる可能性を定量的に示す、汎用的な物体らしさの尺度(objectness measure)を提案する。我々はこの指標が空間的に明確な境界が定義される物体(牛や電話など)を不定形な背景要素(草や道路など)から識別できるよう訓練する。本指標はベイジアン・フレームワークに物体の特徴を示す画像情報を組み込む。この画像情報の例としては、周囲から明確に区別できるであるとか、境界線が閉じているなどである。この他にも閉じた境界線の特徴を計測する革新的な情報も含む。PASCAL VOC 07データセットを用いた実験により、提案する情報は最先端の顕著性尺度を凌駕することを示すと共に、各情報を単体で利用するよりも統合して利用した方が高性能を発揮することを示す。我々はこの尺度を注目点オペレータであるHOG検出器や自動的な物体検出を目的とする3種類の最新手法と比較する。最後に、物体らしさの2種類の用途を示す。第一の用途としては、物体らしさの確率に基づいて少数のウィンドウを抽出し、最近の特定物体検出器のアルゴリズムに位置の初期値として与えることが挙げられる。 実験で示すように、これによって計算コストのかかる特定物体モデルにより評価するウィンドウ数を劇的に削減できる。第二の用途としては、物体らしさを特定物体モデルに対する補足的なスコアとして与えることで、誤抽出を低減できる。近年の複数の論文において示されているように、物体らしさは画像ウィンドウを用いる多様な用途において注目点を与える有用な方法である。この用途の例としては、物体種別の弱教師付き学習、教師なし画素単位分割、そして動画における物体追跡が挙げられる。物体らしさの計算は非常に効率的で、画像あたり4秒程度で済む。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


EMアルゴリズムを用いた等長形状の歪最小な対応付け
Minimum-Distortion Isometric Shape Correspondence Using EM Algorithm (Abstract)

Yusuf Sahillioğlu, Koç University, Istanbul Yücel Yemez, Koç University, Istanbul

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 11, pp. pp. 2203-2215 , November 2012

Keywords: Shape,Three dimensional displays,Optimization,Minimization,Spectral analysis,Approximation methods,Probabilistic logic,EM algorithm,3D isometric shape correspondence,multidimensional scaling,spectral embedding,isometric distortion,greedy optimization,bipartite perfect matching

ほぼ等長な2つの形状間の三次元的な対応付けを構築する、完全に等長的な手法(purely isometric method)を提案する。我々の手法は与えられたメッシュ表現から、曲率の高い頂点を均一にサンプリングする。その後、ある頂点の集合から別の頂点の集合へ、等長性歪(isometric distortion)を最小化する単射(injective mapping)を探索する。我々は形状間の対応付け問題を、全ての可能な射影の組み合わせ最適化(combinatorial optimization)として定式化する。そして、確率的な条件下で対数尤度最大化問題(log-likelihood maximization problem)に縮退し、EMアルゴリズムによって解く。EMアルゴリズムは、サンプルされた頂点を多次元尺度構成法(Multi-Dimensional Scaling, MDS)によって変換することで、周波数領域において初期化される。等長性歪を最小化することは対数尤度関数を最大化することにつながり、元の三次元のユークリッド空間においてEMアルゴリズムの各反復において実現される。この過程は二段階に分けられ、まず相互の完全なマッチング(bipartite perfect matching)が行われ、続いて貪欲な最適化アルゴリズム(greedy optimization algorithm)が適用される。収束した際の最適なマッピングは、用途に応じて1対1または多対1のマッピングとして得られる。正解の対応付けが事前に用意された様々な等長またはほぼ等長な形状の組を用いて、提案手法の有効性を示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数出力のデータから埋め込みを生成する近接性に基づくフレームワーク
Proximity-Based Frameworks for Generating Embeddings from Multi-Output Data (HTML)

Tingting Mu, University of Manchester, Manchester John Yannis Goulermas, University of Liverpool, Liverpool Jun'ichi Tsujii, Microsoft Research Asia, China Sophia Ananiadou, University of Manchester, Manchester

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 11, pp. pp. 2216-2232 , November 2012

Keywords: Laplace equations,Optimization,Principal component analysis,Kernel,Symmetric matrices,Natural language processing,Vectors,embeddings,Dimensionality reduction,supervised,semi-supervised,multilabel classification

本論文では、対ごとの近接性情報に基づき、複数出力のデータからスペクトル埋め込み(spectral embedding)を生成する教師付き並びに準教師付き次元縮退(Dimensionality Reduction, DR)について述べる。複数ラベル分類のための教師付き次元縮退(Supervised DR, SDR)を実現するための、柔軟で汎用的な二つのフレームワークを提案する。一つはMESDと呼ぶフレームワークで、サンプル複製(sample duplication)により現存する如何なる単一ラベルSDRも複数ラベルに拡張できる。もう一つはMOPEと呼ぶフレームワークで、多くの従来技術を一般化したものである。このフレームワークでは同時特徴(simultaneous feature)とラベル情報に基づく重み(近接性)尺度を計算することでSDR問題を解決する。MOPE向けに、ラベルに基づく近接性の計算方法や、情報の重要度と優先順位を用いてラベルベースと特徴ベースの重み情報を合成する仕組みを提案する。更に、教師なし次元縮退(Unsupervised DR, UDR)、単一ラベルや複数ラベルSDR、そして準教師付き次元縮退(Semi-Supervised DR, SSDR)に用いられる多くの従来のスペクトル法の概要を述べ、これらを共通のテンプレートに則って表現することで、この分野の研究者に向けた一般的なガイドとする。我々は更に、従来のSDRモデルとUDRモデルを統合してSSDRを得るための一般的なフレームワークを提案すると共に、関連性特徴(relation feature)のターゲットセットを学習することで計算コストを削減する手順も提案する。自然言語処理の分野において複数ラベルのテキスト分類に用いられる文書集を題材とする実験により、提案手法の有効性を示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


RASL:疎な低ランク分解を用いた線形相関を持つ画像の頑強な位置合わせ
RASL: Robust Alignment by Sparse and Low-Rank Decomposition for Linearly Correlated Images (Abstract)

Yigang Peng, Tsinghua University, Beijing Arvind Ganesh, University of Illinois at Urbana-Champaign, Urbana John Wright, Columbia University Wenli Xu, Tsinghua University, Beijing Yi Ma, University of Illinois at Urbana-Champaign, Urbana and Microsoft Research Asia, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 11, pp. pp. 2233-2246 , November 2012

Keywords: Robustness,Minimization,Algorithm design and analysis,Lighting,Optimization,Sparse matrices,Educational institutions,occlusion and corruption,Batch image alignment,low-rank matrix,sparse errors,robust principal component analysis

本論文では、遮蔽などの全体的な欠損(gross corruption)が存在する線形相関を持つ画像群(linearly correlated images)を同時に位置合わせする問題を扱う。我々の手法は、変換後の画像群の行列が誤差の疎行列と位置合わせされた画像群の低ランク行列との和に分解できる、画像領域における変換(image domain transformation)の最適なセットを探索する。我々はこの非常に困難な最適化問題を、二つのコンポーネント行列(component matrix)間のL1ノルムと核型ノルム(nuclear norm)との和を最小化する凸計画法の連鎖(sequence of convex programs)に縮退する。これによりスケーラブルな凸最適化法(convex optimization technique)を用いて効率的に解くことができる。仮想データと実データに基づく大規模な実験により、提案する頑強な位置合わせアルゴリズムの効果を検証する。この実験の結果から、現実に想定される様々な位置ずれや欠損に対して、提案手法は従来手法よりも高精度かつ高効率であることを示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


HOG記述子の局所動作シグネチャの学習によるゼスチャ認識
Recognizing Gestures by Learning Local Motion Signatures of HOG Descriptors (Abstract)

Mohamed-Bécha Kaâniche, University of Carthage, Tunisia François Brémond, INRIA --Sophia Antipolis - Méditerranée, Sophia Antipolis Cedex

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 11, pp. pp. 2247-2258 , November 2012

Keywords: Tracking,Equations,Vectors,Feature extraction,Kalman filters,Trajectory,Clustering algorithms,probabilistic learning and classification,Gesture recognition,motion detection,HOG descriptors,feature tracking

我々は、文献[1]で提案されたHOG(Histogram of Oriented Gradient)記述子の局所動作シグネチャ(Local Motion Signature, LMS)の学習に基づく、ゼスチャ認識の新しいフレームワークを提案する。我々の主な貢献は、局所特徴の確実な追跡に基づく新しい確率的学習・分類の枠組みを提案することにある。HOG記述子の追跡によりLMSを構築した後、学習用のゼスチャビデオのデータベースを用いてk-meansアルゴリズムによりビデオワード(即ちLMSのクラスタ)のコードブックを学習する。その後、MMI(Maximization of Mutual Information)アルゴリズムにより、ビデオワードはコードワードのコードブックへと圧縮される。最後に新たなゼスチャから生成されたLMSと学習されたコードブックとをk-NN(k-Nearest Neighbor)アルゴリズムと新しい投票手法により比較する。我々の主な貢献は、コードワードとゼスチャラベル間のN対Nマッピングを提案する投票手法により処理することにある。公開ゼスチャデータベースであるKTHとIXMASを用いて実験を行い、提案手法が最先端の手法よりも高性能であることを示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチクラス画像分類のためのスケーラブルな能動学習
Scalable Active Learning for Multiclass Image Classification (Abstract)

Ajay J. Joshi, Google Inc. Fatih Porikli, Mitsubishi Electric Research Labs, Cambridge Nikolaos P. Papanikolopoulos, University of Minnesota, Twin Cities

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 11, pp. pp. 2259-2273 , November 2012

Keywords: Training,Support vector machines,Training data,Noise,Accuracy,Learning systems,Couplings,object recognition,Active learning,scalable machine learning,multiclass classification

物体認識、シーン分類など機械学習手法を用いたコンピュータビジョンのアプリケーションは、良好な結果を出すために多数の学習サンプルを必要とする。特に多数のカテゴリに分類する用途において、各カテゴリに対して十分な数の学習サンプルを用意することは現実的ではない。本論文では、学習過程のボトルネックを解消し、画像の大規模なマルチクラス分類システムの学習を容易にする、能動学習(active learning)の新たなアイディアについて説明する。第一に、我々は従来のように厳密なカテゴリラベルを返すのではなく、yes-no形式の二値フィードバックを行う新しい学習様式を提案する。この様式は何百ものカテゴリが存在するような条件下で特に有効である。提案様式を実現するために、我々は有用なクエリを選択しながらユーザによるアノテーションのコストも考慮するVOI(Value-of-Information)アルゴリズムを開発する。第二に、多数のカテゴリに対応し、非常に高速に計算できる能動的選択尺度(active selection measure)を提案する。この尺度はVOIを算出する前に高速にシード探索を行う目的で導入し、この結果データセットのサイズに比例するアルゴリズムを実現できる。第三に、能動学習の高速な推定を実現するために、位置関係に敏感なハッシュ化(locality sensitive hashing)を行う。これによってデータセットのサイズにほぼ線形な処理時間を実現し、非常に大規模なデータセットにも適用できる。この推定を導入することで、最大二桁の高速化を僅かな精度低下で実現できる。広範な画像データセットを用いた評価実験により、分類精度、ノイズ耐性、データの偏り、そして計算速度の観点から提案手法の頑強さを示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最先端のスーパーピクセル手法とSLICスーパーピクセルとの比較
SLIC Superpixels Compared to State-of-the-Art Superpixel Methods (Abstract)

Radhakrishna Achanta, Ecole Polytechnique Federale de Lausanne, Lausanne Appu Shaji, Ecole Polytechnique Federale de Lausanne, Lausanne Kevin Smith, Ecole Polytechnique Federale de Lausanne, Lausanne Aurelien Lucchi, Ecole Polytechnique Federale de Lausanne, Lausanne Pascal Fua, Ecole Polytechnique Federale de Lausanne, Lausanne Sabine Süsstrunk, Ecole Polytechnique Federale de Lausanne, Lausanne

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 11, pp. pp. 2274-2282 , November 2012

Keywords: Clustering algorithms,Image segmentation,Complexity theory,Image color analysis,Image edge detection,Measurement uncertainty,Approximation algorithms,k-means,Superpixels,segmentation,clustering

近年、コンピュータビジョンのアプリケーションはスーパーピクセルに依存するものが増加している。しかし、良いスーパーピクセル・アルゴリズムの用件は必ずしも明確ではない。従来手法の利点や欠点を理解するために、5種類の最先端のスーパーピクセル・アルゴリズムを用い、画像境界への接触性(adhere to image boundaries)、速度、メモリ効率、そして分割精度に対する影響の観点から比較実験を行う。その後、SLIC(Simple Linear Iterative Clustering)と呼ぶ新たなスーパーピクセル・アルゴリズムを提案する。SLICは効率的なスーパーピクセルの生成のためにk-meansクラスタリング手法を導入する。その単純さにも関わらず、SLICは従来手法と同等以上に画像の境界部に接触する。また、提案手法は高速に計算でき、メモリ利用効率も高く、分割精度の向上につながるだけでなく、スーパーボクセル(supervoxel)の生成にも容易に拡張できる。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


人体姿勢の同時推定とその用途
Human Pose Co-Estimation and Applications (Abstract)

Marcin Eichner, ETH Zurich, Zurich Vittorio Ferrari, ETH Zurich, Zurich

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 11, pp. pp. 2282-2288 , November 2012

Keywords: Prototypes,Estimation,Synchronization,Kinematics,Detectors,Humans,Computational modeling,object detection,Human pose estimation,articulated objects,multiple image correspondence

多節(articulated)の人体姿勢推定(Human Pose Estimation, HPE)を行う従来手法の多くは、各人物を独立に扱う。我々はこの課題に対し新たな側面から取り組む。それは複数の人物が未知の同じ姿勢を取っているというものであり、我々はこれを人体姿勢同時推定(Human Pose Coestimation, PCE)と名付ける。PCEの目的は、複数の人物の姿勢を併せて推定し、共通の姿勢を表すプロトタイプを生成することにある。各人物の姿勢がプロトタイプと類似しているため、PCEは個々の姿勢を独立に推定するよりも自由度が低く、問題が単純化できる。我々はPCE手法を二つの用途に適用する。第一に用途は、エアロビクスやチアリーディング、グループでのダンスなど、複数の人物が協調して同じ動作を行っている状況での姿勢推定である。我々はこの用途において、PCEが個々の人物の姿勢を独立に推定する従来手法よりも高精度であることを示す。第二の用途は、検索エンジンで特定の姿勢を表すクラス名(例えば蓮華座(lotus pose))を用いて検索して得られた画像から、直接そのクラスを表すプロトタイプ・ポーズを学習するものである。この様な画像における姿勢推定で、PCEは従来手法よりも高精度であると共に、未知の画像における姿勢推定の初期値として利用できる有用なプロトタイプが学習できることを示す。

SN

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.34, No.12


カラー・コンピュータビジョンに対する新しいカメラ内撮像モデルとその応用
A New In-Camera Imaging Model for Color Computer Vision and Its Application (Abstract)

Seon Joo Kim, SUNY Korea, Incheon Hai Ting Lin, National University of Singapore, Singapore Zheng Lu, National University of Singapore, Singapore Sabine Süsstrunk, IC-EPFL Stephen Lin, Microsoft Research Asia, Beijing Michael S. Brown, National University of Singapore, Singapore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 12, pp. pp. 2289-2302 , December 2012

Keywords: Image color analysis,Cameras,Clouds,Calibration,Radiometry,Computational modeling,white balance,Radiometric calibration,in-camera image processing,gamut mapping

本稿では、30台以上のカメラからの1万点を超える大規模な画像分析によるカメラ内画像処理に関する研究について報告する。本研究の目的は、画像の値が物理的に意味のある値に変換できるのか、できるとすれば、それは何時どのようにすればできるのかを調査することにある。ここでは、分析に基づいて、旧来の放射計測(radiometric)校正による撮像モデルの主な限界を明らかにするとともに、今日のカメラに上手く適合する新しいカメラ内撮像モデルの提案を行う。この新モデルを用いて、これまでのどの手法よりも遥かに正確に、sRGB画像をオリジナルのCCD原応答に復元することを可能にする校正手順を提示する。さらに、どのようにして、この新しい撮像モデルが、誤ったカメラ設定で取り込まれたsRGB入力画像を、特定のカメラの正しい設定条件下で記録されたsRGB出力画像に変換するような画像補正アプリケーションに利用できるのかを示す。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


新確率的ランド指標に基づくコンセンサス・クラスタリングとサブトピック検索への応用
Consensus Clustering Based on a New Probabilistic Rand Index with Application to Subtopic Retrieval (Abstract)

Claudio Carpineto, Fondazione Ugo Bordoni, Rome Giovanni Romano, Fondazione Ugo Bordoni, Rome

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 12, pp. pp. 2315-2326 , December 2012

Keywords: Indexes,Clustering algorithms,Probabilistic logic,Partitioning algorithms,Equations,Optimized production technology,subtopic retrieval,Consensus clustering,Rand index,probabilistic Rand index,search results clustering

本稿では、二つのパーティション間の類似性計測に対して、確率的ランド指標(Probablistic Rand Index : PRI)と呼ばれる、良く知られたランド指標(Rand Index : RI)の確率的バージョンを導入する。PRIでは、オブジェクト対レベルでの一致・不一致が、それらの生起確率に応じて重みづけられる。次に、コンセンサス・クラスタリングを、目標パーティションと与えられたパーティション集合の間のPRI値の最適化問題として取り扱う。この評価のために単純で非常に効果的な統計的最適化アルゴリズムの実験を行う。また、入力パーティション上の注目すべき性能向上と、関連する既存手法に対する性能向上を、サブトピック検索の性能改善に対するコンセンサス・クラスタリングの新しい用法を含む応用分野を通じて示す。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


相互認識イベント検出
Detecting Mutual Awareness Events (Abstract)

Meir Cohen, Israel Institute of Technology, Haifa Ilan Shimshoni, Haifa University, Haifa Ehud Rivlin, Israel Institute of Technology, Haifa and Google Inc. Amit Adam, Israel Institute of Technology, Haifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 12, pp. pp. 2327-2340 , December 2012

Keywords: Observers,Cameras,Three dimensional displays,Magnetic heads,Face,sparse 3D structure,Head pose,mutual awareness,social signal processing

単一の統計的着目点に対して、複数の観察者が注意を払うのは、極めて一般的なことである。このことは、相互認識イベント(Mutual Awareness Events : MAWE)として知られる。このような状況をモニターする好ましい方法は、既存の顔検出や頭部姿勢推定アルゴリズムと、観測者を取り込むカメラを併用することである。本研究では、根底にあるMAWEの幾何学的制約と、それらを画像計測の観点で再定式化することを検討している。この幾何学的制約は以下の手法の中で用いられる。即ち、1)そのような着目点が存在するかどうかの検出、2)着目点の発生箇所の決定、3)だれがその着目点に関心を向けているかの特定、4)それぞれの観察者が、着目点に注意を向けていたのが、いつどこでだったのかをレポートすることである。この手法は、もう一つの着目イベント(interesting event)にも適用される。それは、一人の動いている観察者が単一の着目点を固視する状態である。また、一般的な環境にある未校正のカメラの一般的なケースを処理することもできる。これは、本質的に既知の環境や校正されたカメラを仮定するような、同様の課題に対する他の仕事と異なっている。本研究では、提案手法の評価を、さまざまなシーンによる約75枚の画像と、頑健な手法で検出されたMAWEと、それらの関連属性の推定値上で実施した。殆どの画像は、インターネット検索で見つけられた。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単一の2D画像から得られる2D姿勢顔検知と認識に対する、新たな性別、民族個別の弾性生成モデル
Gender and Ethnicity Specific Generic Elastic Models from a Single 2D Image for Novel 2D Pose Face Synthesis and Recognition (Abstract)

Jingu Heo, Carnegie Mellon Univeristy, Pittsburgh Marios Savvides, Carnegie Mellon University, Pittsburgh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 12, pp. pp. 2341-2350 , December 2012

Keywords: Three dimensional displays,Face,Solid modeling,Shape,Image reconstruction,Computational modeling,Principal component analysis,face recognition,Generic elastic models,gender and ethnicity specific models,face synthesis

本稿では、性別および民族個別のモデルを用いた任意の姿勢における新たな2D顔画像の分析を目的として、単一の2D顔画像からリアルな3D顔画像を生成するための、新たな方法を提案する。本提案では、弾性生成モデル(Generic Elastic Model : GEM)を採用する。このモデルでは、入力顔画像の疎観測に基づく包括的な3D深度マップを、顔画像の深度を推定するために弾性的に変形する。特に、性別および民族個別のGEM(GE-GEM)により、3D顔モデリングと復元に関して、オリジナルのGEMアプローチよりも良好な汎化を実現する。これにより正確に入力顔画像の3D形状が近似されることを示す。本提案方法の、定性的妥当性については、公共利用可能なデータベースを用いて、単一画像と、同一人物の任意角度で再合成された姿勢により生成された、それぞれの再構築3D形状を示すことにより検証した。また、定量的比較は、合成結果を3Dスキャンデータに対して比較すること、及び単一の 実施環境における正面(enrollment frontal)画像から生成された合成画像による顔認識性能に関する比較によって実施した。これらの検討により、提案方法に基づく操作姿勢と、表現変更に関する有望な結果が得られた。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般化射影M推定量 (Generalized Projection-Based M-Estimator)
Generalized Projection-Based M-Estimator (Abstract)

Sushil Mittal, Columbia University, New York Saket Anand, Rutgers University, Piscataway Peter Meer, Rutgers University, Piscataway

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 12, pp. pp. 2351-2364 , December 2012

Keywords: Estimation,Vectors,Noise,Robustness,Computational modeling,Kernel,Covariance matrix,RANSAC,Generalized projection-based M-estimator,robust estimation,heteroscedasticity

本稿では、ユーザによるスケールパラメータの設定を必要としない新たなロバスト推定アルゴリズム-- 一般化射影M推定量(Generalized Projection-Based M-Estimator : gpbM)を提案する。本アルゴリズムは一般的で、単一または複数のキャリア問題に対する多重線形拘束を伴う不均一データを取り扱うことが可能である。このgpbMは、スケール推定、ロバストモデル推定、および、通常値/はずれ値分離の3つの異なるステージで構成される。これと対照的に、その前身であるpbMでは、それぞれのモデル仮説は、異なるスケール推定に関連づけられている。データに含まれる複数の通常値構造は、一般的に異なるノイズ共分散を持ち、推定値は一度に一構造づつ逐次推定される。このモデル推定値は、グラスマン多様体論を用いて、さらに最適化される。本稿では、いくつかの等分散または非等分散合成および、単一または複数のキャリアを持つ実世界コンピータ・ビジョン問題を提示する。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチビューデータ分析に対する、ラージマージン予測可能潜在部分空間学習
Large-Margin Predictive Latent Subspace Learning for Multiview Data Analysis (Abstract)

Ning Chen, Tsinghua University, Beijing Jun Zhu, Carnegie Mellon University, Pittsburgh and Tsinghua University, Beijing Fuchun Sun, Tsinghua University, Beijing Eric Poe Xing, Carnegie Mellon University, Pittsburgh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 12, pp. pp. 2365-2378 , December 2012

Keywords: image retrieval and annotation,Latent subspace model,large-margin learning,classification,regression

マルチビューデータの特徴表現学習は、画像分類、検索、アノテーションのような、多くの応用における本質的なステップである。サポートベクタマシンのような標準的な予測方法は、しばしば可能な全ての特徴を直接使用する。そこでは、異なる視野の存在や、データの意味に対する鍵となる見識を提示するような、結果視野の依存性・一貫性・相補性は考慮されないため、予測の提示は貧弱となり、視野レベルの分析を取り扱うことができないことが問題となる。本稿では、マルチビュー問題の根底にある予測可能な部分空間表現を、マルチビュー依存性とサイド情報の管理可能性の双方を強化しつつ学習する統計的手法を提示する。ここでのアプローチは、マルチビュー潜在部分空間マルコフネットワーク(Markov network : MN)に基づいている。これは、マルチビュー観測値と応答変数が、条件付き独立に与えられた潜在変数の組であるような弱い条件独立性を満足する。この潜在部分空間MNを学習するために、我々は、データ尤度の最大化とトレーニングデータ上の予測誤差の最小化を同時に行うラージマージン・アプローチの開発を行った。学習と推論は、対照的拡散法(contrastive divergence method)を用いて、効果的に実行される。最後に、我々は、実画像とホテルレビューデータベース上で、分類、認識、画像アノテーション、および検索に関して、広い範囲で、このラージマージン潜在MN法の評価を行った。その結果、ラージマージン・アプローチは、予測性能と予測可能潜在部分空間表現の抽出の意味で、著しい改善効果があることが示された。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


教師なし局所ノイズ推定に対するデジタル輪郭にそった意味のあるスケール検出
Meaningful Scales Detection along Digital Contours for Unsupervised Local Noise Estimation (Abstract)

Bertrand Kerautret, LORIA, Nancy University, Vandoeuvre-lès-Nancy Jacques-Olivier Lachaud, University of Savoie, Chambéry

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 12, pp. pp. 2379-2392 , December 2012

Keywords: Noise,Shape,Decision support systems,Noise measurement,Noise level,Geometry,Approximation methods,shape analysis,Local noise detection,discrete geometry,maximal segments

デジタル輪郭処理で、ノイズの多い部位やダメージ受けた部位を自動検出することは、難しい課題である。これは、情報と外乱を付加的な事前仮定なしに区別することの困難に起因する。しかしながら、この課題を解決することは、画像領域分割、幾何推定、等高線復元、形状マッチングなどの画像処理を含む膨大なアプリケーションに対して多大なインパクトを与える。本稿では、デジタル輪郭処理の考慮すべき各点において、関連スケールを検出する独自戦略を提案する。それは、漸近離散幾何(asymptotic discrete geometry)の理論的結果によっている。これから直接得られる帰結は、輪郭のノイズ部位やダメージ部位の自動検出ならびに、それらの定量的評価(あるいは、ノイズレベル)である。与えられた最大の観察スケールは別として、提案したアプローチには、どんなパラメータ・チューニングも不要であり、実装が容易である。本稿では、幾つかのデータベース上で、その有効性を示す。また、これとは別に、輪郭平滑化に対する局所計量についての直接応用と、ノイズ/スケールのチューニング・パラメータを初期値として要求する幾何学的推定量を提示する。それらにより、デジタル形状分析および形状再構築に対する本提案計量の妥当性が示される。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大規模検索に対する半教師付きハッシュ法
Semi-Supervised Hashing for Large-Scale Search (Abstract)

Jun Wang, IBM T.J. Watson Research, Yorktown Heights Sanjiv Kumar, Google Research, New York Shih-Fu Chang, Columbia University, New York

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 12, pp. pp. 2393-2406 , December 2012

Keywords: Artificial neural networks,Semantics,Encoding,Extraterrestrial measurements,Binary codes,Entropy,sequential hashing,Hashing,nearest neighbor search,binary codes,semi-supervised hashing,pairwise labels

大規模データベースのハッシュに基づく最近傍近似(approximate nearest neghbor : ANN)検索は、その計算性とメモリ効率により普及してきた。一般的なハッシュ法、例えば、局所高感度ハッシュ処理やスペクトルハッシュ処理では、ハッシュ関数をランダム射影や主射影に基づいて構築する。その結果として得られるハッシュは、さほど正確でも不正確でもない。さらに、これらの手法は、与えられた計量の類似性に対して設計されている。即ち、意味上の類似性は、通常、サンプル一対ごとのラベルとして与えられる。そのような、意味上の類似性を扱える教師ありハッシュ法は既に存在するが、ラベル付けられたデータが小さかったりノイズが大かったりする場合には、過剰適合(overfitting)する傾向が問題となる。本稿では、ラベル集合上の実験誤差を最小にする半教師付きハッシュ(semi-supervised hashing: SSH)フレーレムワークと、ラベル集合と非ラベル集合の双方に対する情報理論的正規化手段を提案する。このフレームワークに基づいて、直交ハッシュ、非直交ハッシュおよび逐次ハッシュを含む3つの異なる半教師付きハッシュ法を提案する。 特に、逐次ハッシュ法は頑健なコードを生成する。このハッシュ法では、各ハッシュ関数が1ステップ前のハッシュ関数の誤差を修正するよう設計されている。本稿ではさらに、逐次学習パラダイムが、一組もラベル付けが可能でないような教師なし領域に拡張できることを示す。また、4つの大規模データベース上での広範な実験(8千万以上のサンプル)により、最新の教師付き/教師なしハッシュ法に対して、提案したSSH法の性能が優れていることを示す。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Vショーにおける人間相互作用(human interantion)の構造化学習
Structured Learning of Human Interactions in TV Shows (Abstract)

Alonso Patron-Perez, University of Oxford, Oxford Marcin Marszalek, Google Research, Zurich Ian Reid, University of Oxford, Oxford Andrew Zisserman, University of Oxford, Oxford

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 12, pp. pp. 2441-2453 , December 2012

Keywords: Magnetic heads,Context,Support vector machines,Head,Humans,Tracking,Detectors,structured SVM,Human interaction recognition,video retrieval

本稿の目的は、映像における二人の人物間の相互作用の認識と、時空間局所化である。ここでのアプローチは、人物を中心としている。最初の段階では、映像上の全ての上半身と頭を、検出追跡法(trachking-by-detection approach)により追跡する。これは、頑健な個人追跡を実現するために、KLT追跡とクリーク分割を、隠蔽検出とあわせて融合した検出方法である。我々は、(姿勢固有分類子の組を用いて推定された)頭の向きと、それらの周りの局所時空間に基づいた活性度の局所記述子を、相互作用型の関数として、人の相対位置をエンコードする大域記述子と合わせて開発した。学習とモデル上の推定には、局所記述子と大域記述子を原理に基づいた手法で結合した構造化SVM (structured output SVM) を用いる。モデルによる推論により、どの人物の組が相互作用しているか、そしてその相互作用のクラス、および、彼らの頭の向きに関する情報が得られる。(それらもまた、大域的なコンテキストを用いて、分類の誤りを修正できるよう変数として扱われる。) 本稿では、推定が、人物数に対する多項式時間でできることと、それが、効率の良いアルゴリズムで記述できることを示す。本方法の評価は、23本の異なったTVショーからの300本のビデオクリップからなる新しいデータベースと、ベンチマークUT(インタラクション・データセット)上で実施した。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像勾配方位からの部分空間学習
Subspace Learning from Image Gradient Orientations (Abstract)

Georgios Tzimiropoulos, University of Lincoln, London and Imperial College London, London Stefanos Zafeiriou, Imperial College London, London Maja Pantic, Imperial College, London and University of Twente, Enschede

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 12, pp. pp. 2454-2466 , December 2012

Keywords: Correlation,Principal component analysis,Robustness,Generators,Educational institutions,Face,Face recognition,face recognition,Image gradient orientations,robust principal component analysis,discriminant analysis,nonlinear dimensionality reduction

本稿では、外観に基づく物体認識に対する画像勾配方位からの部分空間学習を紹介する。典型的には、画像データにはノイズが乗っており、そのノイズはガウス分布とは相当程度異なっている。このため、与えられたデータ母集団の低次元部分空間の信頼性ある推定に対して、画素輝度による伝統的な部分空間学習は、頻繁に失敗する問題を生じる。本稿では、画素輝度の勾配方位への置き換えと、L2ノルムのコサイン距離(cosine-based distance measure)への置き換えが、いくつかの拡張への、この問題への対策となることを示す。このフレームワーク、即ち、画像勾配方位(Image Gradient Orientations : IGO)部分空間学習の創出では、最初に画像勾配方向の主成分分析(IGO-PCA)属性の定式化と学習を行う。次いで、以前に提案したロバストPCA技術への、理論・実験双方との関連を示す。そして最後に、その他数々の良く知られた部分空間学習方法、すなわち、線形判別分析(Linear Discriminamt Analysys : LDA)、局所線形埋め込み(Locally Linear Embedding : LLE)、および、ラプラス固有写像(Laplacian Eigenmaps : LE)を導出する。また実験結果により、ここで提案されたアルゴリズムが、ガボール特徴量や 局所バイナリパターンのような良く知られた方法に比べて、極めて性能が良く、照明や隠蔽に対してロバストな顔認識に対する最高性能を達成していることを示す。これに加えて、提案したIGO法は、単純な共分散行列(simple covariance matrix)の固有値分解だけを必要とし、その計算効率は、関連するL2ノルム輝度に基づく対応方法同等となる。なお、本稿で示したIGO法に関するMatlabコードは、http://ibug.doc.ic.ac.uk/resourcesで入手することができる。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


書籍全体認識
Whole-Book Recognition (Abstract)

Pingping Xiu, Lehigh University, Bethlehem Henry S. Baird, Lehigh University, Bethlehem

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 12, pp. pp. 2467-2480 , December 2012

Keywords: Adaptation models,Pragmatics,Image recognition,Character recognition,Optical character recognition software,Error analysis,Computational modeling,cross entropy,Whole-book recognition,document image recognition,book recognition,style consistency,isogeny,adaptive classification,adaptive OCR,adaptive machine learning,model adaptation,anytime algorithm

書籍全体認識(whole-book recognition)は、文書画像解析戦略である。それは、精度改善のための自動適応を用い、書籍ページ画像群全体を取り扱う。ここでは、近似記号モデル及び近似言語モデルによって初期化されるアルゴリズムについて述べる。それらのモデルは(一般的にはエラーの多い)OCR結果と、(一般的には不完全な)辞書により導出される。次にこのアルゴリズムは、データセットに内在する証拠に基づいて全体的に収束へと導かれる。そしてより高い認識精度が得られるようにモデルを順次修正する。記号モデルは、画像構成を記述し、文字画像分類子の振舞いを決定する。そして、言語モデルは単語出現確率を記述する。我々のアルゴリズムは、これら2つのモデル間の"不一致"を、1)文字クラスの事後確率分布 (画像分類だけからの認識結果)と、2)単語クラスの事後確率分布 (画像分類と言語的制約の組み合せによる認識結果)、の2者間の交差エントロピーを計測することにより検出する。本稿ではどのようにして、それらの不一致から、文字レベルと単語レベルの双方のモデル修正に対する候補を特定できるのかを示す。いくつかのモデル補正は、書籍全体の誤り率を低減する。そして、これらは補正前および補正後で書籍全体に渡って集計されたモデル不一致との比較により特定することができる。ここでは、180ページもの長さに及ぶ文節上での実験により、候補モデル適応を用いた場合には、書籍全体の不一致度を低減することを示す。これは本方法が、認識誤差の補正についても有望であることも示している。また、本アルゴリズムを用いて処理された、より長い文節では、この適応手段は、いっそう信頼できるものとなり、さらに低い誤り率が達成される。最良の結果は、記号モデルと言語モデルの双方が互いに誤差を補正し合う場合に得られる。実験では、監視なし全自動(即ち、実際にユーザ調整やユーザとのやり取りが無い)規模に近い所まで、認識誤差のオーダーが押し下げられることを観察した。長文処理においても、改善効果はおよそ単調増加であり、漸近精度は安定である。素朴な実装であっても、アルゴリズムの処理時間は、書籍の長さに対して2次程度である。ランダム・サンプリングと抽出の影響は、2次オーダーの規模であって、精度損失は無視できる。書籍全体認識は、安全な監視なし任意時間アルゴリズム(anytime algorithm)として、デジタル・ライブラリにおける有望な応用を有している。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ハミング空間における高速近似最近傍探索アルゴリズム
A Fast Approximate Nearest Neighbor Search Algorithm in the Hamming Space (Abstract)

Mani Malek Esmaeili, University of British Columbia, Vancouver Rabab Kreidieh Ward, University of British Columbia, Vancouver Mehrdad Fatourechi, University of British Columbia, Vancouver

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 12, pp. pp. 2481-2488 , December 2012

Keywords: Vectors,Indexes,Signal processing algorithms,Hamming distance,Algorithm design and analysis,Approximation algorithms,binary embedding,Nearest neighbor search,Hamming space,multimedia fingerprinting,copy retrieval

(バイナリ)ハミング空間に対する、高速近似最近傍探索アルゴリズムを提案する。提案した誤差重み付けハッシュ(EWH: Error Weighted Hashing)アルゴリズムは、良く知られた局所高感度ハッシュ(LSH: Locality Sensitive Hashing)の20倍以上も高速であり、LSHが失敗するような大な隔たりのある最近傍距離(nearest neighbor distance)に対しても上手く動作する。EWHは、それらのハッシュベクタの差に基づいて比較することで、最近傍候補数を著しく削減する。EWHは、マルチメディア検索や、2値の指紋情報に基づくコピー検出システムに用いることができる。1,000本以上の映像を有する指紋データベース上で、特定の検出精度に関して、我々は、EWHがLSHの10倍以上高速であることを示す。同じ検索時間では、EWHは1/15もの低い誤り率という、極めて良好な度検出精度を有することを示す。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


拘束条件付き束調整法(bundle adjustments)を用いた動きからの構造復元(structure-from-Motion)とGPSの逐次融合
Incremental Fusion of Structure-from-Motion and GPS Using Constrained Bundle Adjustments (Abstract)

Maxime Lhuillier, Pascal Institute (ex. LASMEA), Aubiere

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 12, pp. pp. 2489-2495 , December 2012

Keywords: Global Positioning System,Barium,Cameras,Context,Taylor series,Approximation methods,Linear systems,low cost GPS,Local bundle adjustment,structure-from-motion,fusion

束調整法(bundle adjustments: BA)を長時間映像に適用した場合、計算時間の肥大化とドリフト(誤差累積)の2つの問題を生じる。近年の研究では、計算時間は、逐次法に局所BAを適用することにより低減される。ドリフトについては、GPSと動き構造を融合することで低減されると考えられる。既存の融合方法の場合、BAは映像の加重和とGPS誤差を最小化する。本提案では、再投影誤差を上限に強制するような融合に対する2つの拘束条件付きBAを紹介する。これらのBAは、既存の融合BAで再投影誤差を小さく押さえられる保証がなく、重みを入力値として必要とするようなBAに取って代わるものである。それから、3つの融合BAを、局所BAに基づく逐次動きからの構造復元法に統合する。最後に、長時間の単眼映像シーケンスと低価格GPSの融合結果の比較について報告する。

Jam

Copyright (c) 2012 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


[インデックス] [前の年] [次の年]