AbstractClub - 英文技術専門誌の論文・記事の和文要約


[インデックス] [前の年] [次の年]


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.35, No.1


都市部の風景をモデル化するためのハイブリッド多視点ステレオアルゴリズム
A Hybrid Multiview Stereo Algorithm for Modeling Urban Scenes (Abstract)

Florent Lafarge, INRIA, Sophia Antipolis Renaud Keriven, Acute3D Company,Sophia Antipolis Mathieu Brédif, IGN/Universite Paris Est, Saint-Mande Hoang-Hiep Vu, LIGM/Universite Paris Est, Marne La Vallee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 5-17 , January 2013

Keywords: Image reconstruction,Three dimensional displays,Shape,Adaptation models,Semantics,Stereo image processing,jump-diffusion,3D modeling,multiview stereo,urban scenes,hybrid representation

我々は、メッシュと幾何学的な基本要素の組み合わせることで都市部の風景を3Dモデル化するための、新しい多視点ステレオ再構成アルゴリズムを提案する。本手法は細部を保存しつつも簡潔なモデルを作成できる。彫像や装飾品など一般的でない要素はメッシュにより表現され、柱や壁などの一般的な構造は形状要素(平面、球面、円柱、円錐、そしてトーラス)により表現される。我々は2段階からなる戦略によりこれを実現する。まず、マルチラベル・マルコフ確率場に基づくモデルにより、メッシュにより表現された初期平面を分割する。次に、得られた部分領域ごとにジャンプ拡散過程(Jump-Diffusion process)によって形状要素とメッシュ要素とを同時にサンプリングする。再構成結果の品質は複数物体エネルギーモデル(multi-object energy model)により評価する。このモデルでは、写真整合性(photo-consistency)と、形状や構造形態である意味論的考察(semantic considerations)との両側面が考慮される。分割とサンプリングは反復的な改良過程に組み込まれており、これによってより一層正確なハイブリッド表現が可能となる。複雑な都市部の構造物や多様な風景を用いた実験により、最先端の多視点ステレオメッシュアルゴリズムと比較する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スペクトルグラフマッチングへの確率的なアプローチ
A Probabilistic Approach to Spectral Graph Matching (Abstract)

Amir Egozi, Ben Gurion University, Beer Sheva Yosi Keller, Bar Ilan University, Ramat Gan Hugo Guterman, Ben Gurion University, Beer Sheva

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 18-27 , January 2013

Keywords: Probabilistic logic,Vectors,Entropy,Reliability,Maximum likelihood estimation,Kernel,Convergence,point matching,Graphs,spectral matching,probabilistic matching

スペクトラルマッチング(Spectral Matching, SM)はNP困難な組み合わせマッチング問題の近似解を効率よく計算する手法である。本論文では、スペクトラルマッチング法の確率的な解釈を示し、従来手法を凌駕する新しい確率的マッチング(Probabilistic Matching, PM)法を導出する。我々は、スペクトラルマッチングは割り当て確率(assignment probability)の最尤推定と解釈ができ、段階的割り当て(Graduated Assignment, GA)アルゴリズムは事後確立最大推定器(Maximum a Posteriori estimator)と見なすことができることを示す。この分析結果に基づき、我々は信頼度に基づくスペクトラルマッチングの順位付け方法を導出し、従来手法が依存する暗黙の前提の一部を緩和する、新しい回帰的な確率的マッチングアルゴリズムを提案する。網羅的な合成データと実画像系列を用いた実験により、提案手法が従来手法を凌駕することを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テンソル積グラフの拡散を用いた親和性学習
Affinity Learning with Diffusion on Tensor Product Graph (Abstract)

Xingwei Yang, Temple University, Philadelphia Lakshman Prasad, LANL, Los Alamos Longin Jan Latecki, Temple University, Philadelphia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 28-38 , January 2013

Keywords: Shape,Manifolds,Diffusion processes,Tensile stress,Noise,Image segmentation,Context,image segmentation,Diffusion process,tensor product graph,affinity learning,image retrieval

多くの応用用途では、データ多様体(data manifold)をサンプルして得られた有限個のデータ点の組を、各サンプルの組ごとの類似度をエッジ重み(edge weights)とするグラフとして表現したものが与えられる。この組ごとの類似度(親和性(affinity)とも呼ばれる)は、ノイズやサンプル間の類似度を推定する困難さから多くの場合に信頼できない。近年提案された幾つかの手法からも見て取れるように、元の類似度を他のデータ点のコンテキストにおいて拡散させる(diffused in the context of other data points)と、より信頼できる類似度が得られる。ここで言うコンテキストは、各データ点と類似するデータ点の組のことである。従来手法と比較して、提案手法は二つの点で異なる。第一に、我々は元のグラフにおいて類似度の情報を拡散するのではなく、元のグラフとそれ自身のテンソル積により求まるテンソル積グラフ(tensor product graph, TPG)を利用する。TPGは高次の情報を考慮することから、より信頼性の高い類似度が得られても不思議ではない。一方で、代償として計算複雑度と要求される記憶容量が増大する。本手法の特徴は、TPGに対する情報の伝播を、元のグラフに対する伝播と同じ計算複雑度と記憶容量で実現することにある。我々は、TPGに対するグラフの拡散過程が、収束することが保証された元のグラフに対する最先端の回帰的アルゴリズムと等価であることを証明する。拡散過程の収束により、新しく学習された親和性と解釈できるエッジ重みが得られる。この親和性が教師なし学習されている点を強調しておく。我々は提案手法の利点を、図形、画像、そして画像パッチで構成されるデータ多様体に対する、画像検索と画像分割という大きく異なるタスクにおいて説明する。学習された親和性を用いることで、MPEG-7の図形のデータセットにおいて最先端のアルゴリズムを大きく超える99.99%の正解率を達成した。データ点が画像パッチであれば、学習された親和性によるNCutは、元の類似度を用いたNCutを圧倒するだけでなく、最先端の画像分割手法をも凌駕する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


1人1学習サンプルの顔認識のための判別的複合多様体分析
Discriminative Multimanifold Analysis for Face Recognition from a Single Training Sample per Person (Abstract)

Jiwen Lu, Advanced Digital Sciences Center, Singapore Yap-Peng Tan, Nanyang Technological University, Singapore Gang Wang, Nanyang Technological University, Singapore and Advanced Digital Sciences Center, Singapore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 39-51 , January 2013

Keywords: Manifolds,Face recognition,Face,Training,Feature extraction,Semantics,Educational institutions,single training sample per person,Face recognition,manifold learning,subspace learning

従来の外観に基づく顔認識手法は、一般的に学習過程の判別特徴抽出において1人につき複数のサンプルが存在することを前提としている。しかし、法執行や電子パスポート、IDカード認証など実際の顔認証用途では、1人につき1サンプルしか存在しない(single sample per person, SSPP)ため上述の前提が成り立たない場合がある。一般的な顔認証手法の多くは、この様な条件下では判別学習(discriminant learning)において必要数のサンプルが得られないため、十分な性能を発揮できない。この問題に鑑みて、我々は画像パッチから判別特徴を学習する新しい判別的複合多様体分析(discriminative multimanifold analysis, DMMA)を提案する。まず各顔画像を、重なりを持たない複数のパッチに分割し、個人のサンプルごとの画像セットを作成する。その後、SSPP顔認識をマルチ多様体問題として定式化し、複数のDMMA特徴空間を学習することで、人物ごとの多様体のマージンを最大化する。最後に、ラベルを持たない対象を特定するための再構成ベースの多様体間距離を示す。一般的に利用される3種類の顔データベースを用いた実験により、提案手法の有効性を示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


人物の動作追跡のための動力学的なシミュレーションの事前知識
Dynamical Simulation Priors for Human Motion Tracking (Abstract)

Marek Vondrak, Brown University, Providence Leonid Sigal, Disney Research, Pittsburgh Odest Chadwicke Jenkins, Brown University, Providence

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 52-65 , January 2013

Keywords: Kinematics,Tracking,Humans,Dynamics,Joints,Biological system modeling,Trajectory,particle filtering,Articulated tracking,human pose tracking,human motion,physical simulation,physics-based priors,Bayesian filtering

我々は、地面と人物との物理的なインタラクションを伴う動画における人物の動作を追跡するための、シミュレーションに基づく動力学的な動作の事前知識を提案する。近年の動作追跡手法の多くは、効率的な推論アルゴリズムや運動学的な動作モデルの事前学習に焦点を当てている。しかし、復元された動作の物理的な尤もらしさに寄与するものは僅かである。本論文において、我々は対象人物の物理的に尤もらしい動作を復元することを目的とする。この目的を達するために、我々はベイジアン・フィルタ・フレームワークに人体の動力学を導入する、全身の3次元物理シミュレーションに基づく事前知識を提案する。対象物の動作はフィードバックを伴う制御ループにより生成されるとみなす。この制御ループでは、ニュートン力学により人物と環境との剛体動力学を、相互作用力(interaction forces)、原動力(motor forces)、そして重力を用いて近似する。相互作用力は物理的に不可能な仮定を抑制する。相互作用力は人物と環境との衝突を検知することで生成され、環境に対するより適切な反応を実現する。(例えば、地面への接触) 原動力は動作のコントローラにより生成され、姿勢の遷移が物理的に妥当となるように人体を駆動する。得られる高次元の状態空間において効率的に推論を行うために、我々は事例ベース制御戦略(exemplar-based control strategy)を導入することで原動力の探索空間を効果的に圧縮する。その結果、単眼や多視点動画から被写体の人物の物理的に尤もらしい動作を復元することが可能となる。標準的な動作の事前知識を用いたベイジアン・フィルタリング手法と比較して、提案手法が定量的にも定性的にも優位であることを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


加算性カーネルSVMのための効率的な分類
Efficient Classification for Additive Kernel SVMs (Abstract)

Subhransu Maji, University of California, Berkeley, Berkeley Alexander C. Berg, Computer Science Department, Stony Brook Jitendra Malik, University of California at Berkeley, Berkeley

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 66-77 , January 2013

Keywords: Subhransu Maji, University of California, Berkeley, Berkeley Alexander C. Berg, Computer Science Department, Stony Brook Jitendra Malik, University of California at Berkeley, Berkeley

我々はある種の非線形カーネルSVMは、サポートベクトル数に依存しない実行時間とメモリ複雑度を持つ近似カーネルが導入できることを示す。加算性カーネル(additive kernel)と呼ぶこの種のカーネルは、交点カーネル(intersection kernel)やカイ二乗カーネル(chi-squared kernel)などヒストグラムベースの画像比較に広く用いられるカーネルを含む。加算性カーネルは線形カーネルよりも広範囲の用途において、同等の実行時間で大幅に精度を向上できる。このため大規模な認識用途やリアルタイム検出用途に適用可能である。我々はINRIA人物データベース、Daimler-Chrysler歩行者データベース、UIUC車データベース、Caltech-101、MNIST、そしてUSPS数字データベースを含む様々なデーセットを用いて実験を行い、加算性カーネルを用いたSVMの効率的な評価における提案手法の有効性を示す。我々の手法は最初に提案して以降、PASCAL VOC物体検知/画像分類、ImageNet Challenge、TRECVIDなど向けの様々な最先端のシステムに導入可能となった。我々の提案手法は重み付き加算性カーネルの評価が必要な条件で適用可能である。これらの中にはカーネル化されたPCA、LDA、回帰(regression)、k-meansが含まれ、更にSVM識別器の学習アルゴリズムの内部ループを高速化する用途にも利用できる。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像の色からの情報推定:デジタルカメラや自然の風景への応用
Estimating Information from Image Colors: An Application to Digital Cameras and Natural Scenes (Abstract)

Iván Marín-Franch, Indiana University of Optometry, Bloomington and City University London, London David H. Foster, University of Manchester, Manchester

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 78-91 , January 2013

Keywords: Image color analysis,Entropy,Mutual information,Sensors,Random variables,Lighting,Cameras,color constancy,Color vision,color information,digital color cameras,color processing,information theory,natural scenes,kth-nearest-neighbor statistics

画像中のシーンに含まれる色は、その構成要素の情報を提供する。しかし、その情報量は撮影条件や情報の計算方法に依存する。本書の目的は二つある。第一に、あるシーンを異なる照明条件で撮影した画像の各画素における色を用いて、利用可能な情報と抽出された情報の推定量を求めることである。第二に、デジタルカメラで用いられている5種類のセンサと人間の目の垂体から得られる画像のシミュレーションにこの推定量を用いることである。推定量は、自然の風景を4,000、6,500、25,000Kの色温度の日光の下で撮影した50枚の分光画像に対して求める。センサの組み合わせによって、最も大きな照明光の差を持つ画像群において推定された存在する利用可能な情報量の平均値は、15.5ビットから18.0ビットの間でばらついた。また、最適な線形処理後に推定された抽出された情報量の平均値は、13.2ビットから15.5ビットの間でばらついた。これは存在する情報量の約85%に相当する。最適なセンサの組み合わせを用いれば、シーンにおいて識別できる点の数は最も悪いケースよりも390%多い。画像の色からシーンの情報を抽出する過程は、カメラセンサの選択に極めて強く依存する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ラプラシアン・スパースコーディング、ハイパーグラフ・ラプラシアン・スパースコーディング、そしてその応用
Laplacian Sparse Coding, Hypergraph Laplacian Sparse Coding, and Applications (Abstract)

Shenghua Gao, Nanyang Technological University, Singapore Ivor Wai-Hung Tsang, Nanyang Technological University, Singapore Liang-Tien Chia, Nanyang Technological University, Singapore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 92-104 , January 2013

Keywords: Encoding,Image coding,Laplace equations,Image reconstruction,Sparse matrices,Tagging,Quantization,locality preserving,Laplacian sparse coding,hypergraph Laplacian sparse coding,image classification,semi-auto image tagging

スパースコーディングはコンピュータビジョンの様々な用途において良好な性能を示しているす。しかし、過完備な(overcomplete)コードブックや独立符号化過程(independent coding process)により、符号化されるインスタンス間の局所性や類似性が失われる。この様な局所性や類似性の情報を維持するために、我々はラプラシアン・スパースコーディング(Laplacian sparse coding, LSc)フレームワークを提案する。スパースコーディングの目的に類似性を維持する項を導入することで、提案するラプラシアン・スパースコーディングはスパースコードの不安定性を緩和できる。更に、我々はハイパーグラフ・ラプラシアン・スパースコーディング(Hypergraph Laplacian sparse coding, HLSc)を提案する。本手法はラプラシアン・スパースコーディングをインスタンス間の類似性がハイパーグラフにより定義される条件に拡張したものである。特に、このHLScは同じハイパーエッジに属するインスタンス間の類似性を同時に捉えられると共に、これらのスパースコードを類似するように作成できる。LScとHLScは共に、スパースコーディングのロバスト性を向上させる。我々はLScをBag-of-Words画像表現の特徴量の量子化に適用し、画像分類の課題においてスパースコーディングを超える良好な性能が得られることを示す。HLScも画像の半自動タギングの課題に適用可能である。これらの用途における良好な性能は、我々の提案する局所性と類似性の保存の定式化が有効であることを示している。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


リアルタイム追跡のためのマルチレイヤの適応的線形予測器
Multilayer Adaptive Linear Predictors for Real-Time Tracking (Abstract)

Stefan Holzer, Technical University of Munich, Garching Slobodan Ilic, Technical University of Munich, Garching Nassir Navab, Technical University of Munich, Garching

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 105-117 , January 2013

Keywords: Tracking,Vectors,Robustness,Pattern analysis,Shape,Artificial intelligence,linear predictors,Template tracking

追跡への適合性に基づいて、部分的な追加や削除によりテンプレートサイズを拡大したり縮小したりするためには、テンプレートサイズのばらつきを許容する能力を必要とする。例えば、線形予測器を用いたリアルタイムのテンプレート追跡は高速で安定であるが、固定サイズのテンプレートを用いる必要がありオンラインで予測器を更新することができない。この問題を解決するために、我々は適応的線形予測器(Adaptive Linear Predictor, ALP)を提案する。本手法は事前学習済みの線形予測器をオンラインで更新することが可能である。一般的な線形予測器の学習方法のように、テンプレート形状が更新された際に毎回完全な行列反転(matrix inversion)を行うのではなく、本手法ではこの反転行列を高速に更新する。このことにより、一般的な学習方法と比較して短時間にALPを学習することができる。更に、我々はマルチレイヤのアプローチにより遮蔽を検知すると共に、ALPを用いてこれを効果的に処理する。このことにより、大きなテンプレートを追跡することができると共に、このテンプレートをその時点での遮蔽の状態に応じて更新することができる。我々は提案手法を徹底的に評価し、一般的な線形予測器や他の最先端の手法と比較する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像間の対応のオンライン学習
Online Learning of Correspondences between Images (Abstract)

Michael Felsberg, Linköping University , Linköping Fredrik Larsson, Linköping University, Linköping Johan Wiklund, Linköping University, Linköping Niclas Wadströmer, FOI Swedish Defence Research Agency, Linköping Jörgen Ahlberg, Termisk Systemteknic AB, Linköping

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 118-129 , January 2013

Keywords: Vectors,Cameras,Estimation,Geometry,Channel estimation,Three dimensional displays,Accuracy,surveillance,Online learning,correspondence problem,channel representation,computer vision

画像系列間の点の対応付けを行う新しい反復学習法を提案する。3次元空間における平面上を移動する点が、二つの画像に射影されたとする。一方の視点における点が与えられたとき、他方の視点における対応する位置を求める問題について考える。この射影の幾何学的形状や歪は、平面の形状と共に未知である。3次元のシーンそのものが得られない条件下で点群の組が幾つか与えられたとき、これらの対応付けは透視投影モデルを仮定することで、過度な全体最適化(excessive global optimization)や基本行列(fundamental matrix)により求めることができる。しかし、一般的な撮像系(general imaging geometry)を用いた点群の組の時系列データ(sequence of point-set pairs)に対する反復的な解法が望ましい。我々は、推定位置と実際の位置とのそれぞれの不確実性を表す密度のNeymanのカイ二乗誤差に基づいて、対応関係を最適化する手法を導出する。この密度は基底関数法(basis function approach)を用いて計算されたチャンネルベクトルとして表現される。これらのベクトル間の対応付けは、素早い収束や高い精度が実現されるように新しい画像ペアごとに更新される。最終的なアルゴリズムはリアルタイム処理が可能であり、多くの実験において収束性や精度の観点で最先端の手法を凌駕している。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


アフィン不変な異方性領域の確率的な追跡
Probabilistic Tracking of Affine-Invariant Anisotropic Regions (Abstract)

Stamatia Giannarou, Imperial College London, London Marco Visentini-Scarzanella, Imperial College London, London Guang-Zhong Yang, Imperial College London, London

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 130-143 , January 2013

Keywords: Feature extraction,Detectors,Target tracking,Kalman filters,Visualization,Kernel,Probabilistic logic,image-guided navigation,Salient feature extraction,feature point tracking

コンピュータビジョンの世界で、長年に渡り様々な特徴抽出器が開発されているにもかかわらず、この様な技術の手術支援に対する直接的な応用は多くの困難を伴っている。その一因は、細胞組織の自由変形と結びつく信頼性の高い明らかな特徴が不足していることと、手術シーンにおける外観の変化にある。本論文の目的は、低侵襲手術(Minimally Invasive Surgery, MIS)において、外観が大きく変動するアフィン不変な異方性領域を追跡するための、新しい確率的なフレームワークを提案することにある。アフィン不変な異方性特徴抽出器(affine-invariant anisotropic feature detector)の理論的な背景を示すと共に、GPUの計算能力を活用したリアルタイム実装を提案する。拡張カルマンフィルタ(Extended Kalman Filter, EKF)を用いたパラメータ化方法を用いて、検出領域の最適なテンプレートを適応的に修正することで、追跡する特徴の正確な識別と照合を行うことができる。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ランク最小化による放射測定の校正
Radiometric Calibration by Rank Minimization (Abstract)

Joon-Young Lee, KAIST, Daejeon Yasuyuki Matsushita, Microsoft Research Asia, Beijing Boxin Shi, University of Tokyo, Tokyo In So Kweon, KAIST, Daejeon Katsushi Ikeuchi, University of Tokyo, Tokyo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 144-156 , January 2013

Keywords: color analysis,Radiometry,Calibration,Noise,Vectors,Cameras,Minimization,low-rank structure,Radiometric calibration,camera response function,rank minimization

様々な観測過程における変換不変な低ランク構造(transform invariant low-rank structure)を利用する、ロバストな放射測定(radiometric)の校正フレームワークを提案する。観測過程の例としては、静的なシーンを露光時間を変えて撮影することで得られたセンサ輝度や、エッジ周辺における放射照度の混色の線形構造(linear structure of irradiance color mixtures)が挙げられる。放射測定の校正における様々な問題は、ランク最小化を用いるフレームワークにより解決できることを示す。このフレームワークでは、様々な条件下で放射測定の校正問題を解決するための原理的な方法を提供する。提案手法をシミュレーションや実際のデータセットを用いて評価し、従来のアプローチよりも高性能であることを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


空間不変なデコンボリューションによる大気乱流の除去
Removing Atmospheric Turbulence via Space-Invariant Deconvolution (Abstract)

Xiang Zhu, University of California, Santa Cruz, Santa Cruz Peyman Milanfar, University of California, Santa Cruz, Santa Cruz

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 157-170 , January 2013

Keywords: Image restoration,Vectors,Imaging,Deconvolution,Noise,Kernel,Estimation,sharpness metric,Image restoration,atmospheric turbulence,nonrigid image registration,point spread function

本論文では、幾何学歪や空間的、時間的に変化するボケを補正するために、大気乱流(atmospheric turbulence)により歪められた画像系列から高品質の画像を1枚復元する新しいアプローチを提案する。このアプローチでは、空間的、時間的に変化するボケ補正問題を変位に不変な問題へと縮退する。本手法ではまず、Bスプラインベースの非剛体位置合わせ(B-spline-based nonrigid registration)を用いて各フレームの幾何学歪を低減する。次に、得られたフレーム群に対して時間的な回帰処理を行うことで1枚の画像を合成する。この画像は回折限界に近い空間的に不変なボケで畳み込まれたと見なすことができる。最後に、ブラインド・デコンボリューション・アルゴリズムを実装して合成された画像のボケ補正を行い、最終結果を生成する。実データを用いた実験から、本手法はボケや歪を効果的に軽減し、シーンの詳細を復元できると共に、画質を大幅に向上できることを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


低ランク表現による部分空間の構造の頑強な復元
Robust Recovery of Subspace Structures by Low-Rank Representation (Abstract)

Guangcan Liu, Shanghai Jiao Tong University, Shanghai and University of Illinois at Urbana-Champaign, Urbana-Champaign Zhouchen Lin, Peking University, Beijing Shuicheng Yan, National University of Singapore, Singapore Ju Sun, Columbia University, New York Yong Yu, Shanghai Jiao Tong University, Shanghai Yi Ma, Microsoft Research Asia, Beijing and University of Illinois at Urbana-Champaign, Urbana

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 171-184 , January 2013

Keywords: Robustness,Noise,Dictionaries,Optimization,Polynomials,Data models,Vectors,outlier detection,Low-rank representation,subspace clustering,segmentation

本論文では、部分空間のクラスタリング問題を取り上げる。複数の部分空間の集合から大まかに取り出されたデータサンプル(例えばベクトル)の組が与えられたとき、我々の目的はこれらのサンプルを対応する部分空間に分類し、同時に外れ値と見られるサンプルを除去することである。この観点から、我々は低ランク表現(Low-Rank Representation, LRR)と呼ぶ新しい目的関数を提案する。この目的関数は、辞書に登録された基底の線形和としてデータサンプルを表現できる、最も低ランクとなる表現を探索する。LRRと関連する凸計画法を用いることで、次の様にして部分空間の分類問題が解けることを示す。データに外れ値が含まれていなければ、LRRにより部分空間の構造が完全に復元できることを証明する。データに外れ値が含まれていれば、所定の条件下においてLRRは元データの行空間(row space)を完全に復元すると共に、外れ値を検出できる。低密度の様々なエラーにより破損したデータであっても、LRRは理論的に裏付けの下で行空間(row space)を概ね復元できる。部分空間に属するか否かは行空間により決定されることが明白であることから、LRRにより効率的かつ効果的に頑強な部分空間の分類やエラー修正を行うことができる。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


視覚的注意のモデル化に関する最新動向
State-of-the-Art in Visual Attention Modeling (Abstract)

Ali Borji, University of Southern California (USC), Los Angeles Laurent Itti, University of Southern California University of Southern California, Los Angeles

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 185-207 , January 2013

Keywords: Computational modeling,Visualization,Hidden Markov models,Feature extraction,Humans,Solid modeling,Search problems,gist,Visual attention,bottom-up attention,top-down attention,saliency,eye movements,regions of interest,gaze control,scene interpretation,visual search

視覚的注意(visual attention)、特に刺激に誘発される誘目度に基づく注意(stimulus-driven, saliency-based attention)のモデル化は、過去25年間に渡り非常に活発に研究されてきた。他分野への先駆的な理論的貢献を除けば、様々なモデルがコンピュータビジョンやモバイル・ロボット工学、認知体系の分野において活用されている。本論文において、我々はこれらのモデルに実装されている注意の基本的なコンセプトを、計算という観点(computational perspective)から論評する。我々は約65モデルを分類し、アプローチ、長所、そして短所の比較を行う。特に、行動学的、計算学的研究(behavioral and computational studies)から導き出された13の基準に基づいて、これらのモデルの定性的な比較を行う。更に我々は、計算結果の生物学的好ましさ(biological plausibility of the computations)、視線移動のデータセットとの相関、ボトムアップとトップダウンの解離(bottom-up and top-down dissociation)、そして有意な性能評価指標の構築という困難な課題にも取り組む。最後に、近年の注意のモデル化に関する研究動向の概要を紹介し、今後の見通しを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


視覚データにおける欠損値を推定するためのテンソル補完
Tensor Completion for Estimating Missing Values in Visual Data (Abstract)

Ji Liu, Arizona State University, Tempe Przemyslaw Musialski, Arizona State University, Tempe Peter Wonka, Arizona State University, Tempe Jieping Ye, Arizona State University, Tempe

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 208-220 , January 2013

Keywords: Tensile stress,Optimization,Minimization,Algorithm design and analysis,Convex functions,Convergence,Smoothing methods,sparse learning,Tensor completion,trace norm

本論文では、視覚データのテンソルにおける欠損値を推定するアルゴリズムを提案する。値の欠損は、データの獲得過程における障害や、ユーザにより手動で外れ値が指定されることにより生じる。提案するアルゴリズムは少数のサンプルでも動作し、構造を伝播させることで大きな欠損領域を埋めることもできる。我々の方法論は、近年の行列補完(matrix completion)に関する研究に基づいており、トレース・ノルム(trace norm)を用いることで実現される。本論文の貢献は、トレース・ノルムの序論(first definition)を提唱し、実用的なアルゴリズムを構築することで、行列補完をテンソルに拡張することである。まず、我々は既存の行列のトレース・ノルムの定義を一般化する、テンソルのトレース・ノルムの定義を提案する。次に、行列補完と同様に、テンソル補完を凸最適化問題として定式化する。残念ながら、複数の制約の間に存在する依存関係により、行列補完問題の単純な拡張として解くことは非常に困難である。この問題に対処するために、我々は3種類のアルゴリズムを開発する。これらは単純低ランク・テンソル補完(simple low rank tensor completion, SiLRTC)、高速低ランク・テンソル補完(fast low rank tensor completion, FaLRTC)、並びに高精度低ランク・テンソル補完(high accuracy low rank tensor completion, HaLRTC)である。SiLRTCアルゴリズムは、実装が容易で、制約間の依存関係を分離するための緩和法(relaxation technique)を導入し、ブロック座標降下法(block coordinate descent method)を用いて全体最適化を実現する。FaLRTCアルゴリズムは、平滑化手法(smoothing scheme)を用いて元の非平滑問題(nonsmooth problem)を平滑問題へと変換し、一般化されたテンソル・トレース・ノルム最小化問題に適用できる。HaLRTCアルゴリズムは、先述した問題に乗数交互方向型解法(alternating direction method of multipliers, ADMMs)を適用する。実験により提案するアルゴリズムの応用先を示すと共に、定量評価から提案手法が統計的手法よりも高精度で頑強であることが示唆される。効率性の比較から、FaLTRCとHaLRTCはSiLRTCよりも効率的で、FaLTRCとHaLRTとの比較では前者の方が高速であるが精度が低く、高い精度を求めるのであれば後者の方が望ましいことが示される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


人間の動作認識のための3次元畳み込みニューラルネットワーク
3D Convolutional Neural Networks for Human Action Recognition (Abstract)

Shuiwang Ji, Old Dominion University, Norfolk Wei Xu, FAcebook, Inc., Palo Alto Ming Yang, NEC Labs America, Inc., Cupertino Kai Yu, NEC Labs America, Inc., Cupertino

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 221-231 , January 2013

Keywords: Three dimensional displays,Solid modeling,Feature extraction,Computer architecture,Videos,Kernel,Computational modeling,action recognition,Deep learning,convolutional neural networks,3D convolution,model combination

我々は監視カメラの映像における人物の動作認識の自動化を考える。近年の大多数の手法は、入力された生データから手作業で選ばれた複雑な特徴に基づいて識別器を構築している。畳み込みニューラルネットワーク(convolution neural network, CNN)は、生データに直接適用可能な深いモデル(deep model)の一種である。しかし、このようなモデルは現状では2次元データしか扱えない。本論文では、動作認識のための新しい3次元CNNモデルを提案する。このモデルでは、3次元畳み込みを行うことで空間と時間の両方から特徴抽出を行い、連続する複数のフレームで符号化された動きの情報を取得する。提案するモデルは複数チャンネルの情報を入力フレーム群から生成し、全てのチャンネルの情報を統合して最終的な特徴表現を生成する。更に性能を向上させるために、出力を高次元特徴で規格化すると共に、様々なモデルによる予測結果を統合することを提案する。我々は提案手法を空港の監視カメラで撮影された実環境における人物の動作認識に適用し、比較対象の手法の性能を凌駕することを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


イルカはどんな形? 2次元画像からの3次元モーフィング・モデルの構築
What Shape Are Dolphins? Building 3D Morphable Models from 2D Images (Abstract)

Thomas J. Cashman, University of Lugano, Lugano Andrew W. Fitzgibbon, Microsoft Research, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 232-244 , January 2013

Keywords: Three dimensional displays,Solid modeling,Shape,Cameras,Image reconstruction,Dolphins,Biological system modeling,single-view reconstruction,Morphable model,shape from silhouette,subdivision surfaces,image-based modeling

3次元モーフィング・モデル(3D morphable model)は3次元の物体クラスを低次元のパラメータ化したものであり、3次元形状を2次元画像に関連付けるための有効な手段である。しかし、現時点ではモーフィング・モデルは3次元スキャンにより生成されており、動物といった一般的な物体クラスに適用するには経済的にも実用的にも現実的ではない。我々は多少(従来のモーフィング・モデルを作成するより少し多い程度)のユーザ・インタラクションが与えられれば、特定の物体クラスの2次元画像群から3次元モーフィング・モデルを生成するのに十分な情報を得られることを示す。これは、表面のテクスチャが存在しない条件においても同様である。鍵となる制約は、対象とする物体クラスが間接で複雑に構成されていない(not strongly articulated)ことと、「平均形状(mean shape)」の初期推定値として大まかな剛体モデルが提供されることである。モデル表現は細分化された平面の線形結合として表し、新しい連続-離散最適化統合戦略(combined continuous-discrete optimization strategy)に基づいて画像のシルエットや識別可能なキーポイントに当てはめる。幾つかの自然物体クラスを用いて実験を行った結果から、この様な限定された情報でも比較的高い精度のモデルが得られることを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動的屈折を用いた動き検出
Detecting Motion through Dynamic Refraction (Abstract)

Marina Alterman, Technion - Israel Institute of Technology, Haifa Yoav Y. Schechner, Technion - Israel Institute of Technology, Haifa Pietro Perona, California Institute of Technology, Pasadena Joseph Shamir, Technion - Israel Institute of Technology, Haifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 245-251 , January 2013

Keywords: Optical distortion,Cameras,Nonlinear distortion,Covariance matrix,Dynamics,Animals,Vectors,distortion,Motion detection,refraction,random media,classification

大気乱流や液体表面を通して物を見る場合には、屈折によりランダムな動的歪み(dynamic distortion)が生じる。後者のシナリオは、水中生物が空中や地上の獲物を見つけたり、捕食者を回避したりする上で発生する。人間も潜水艦やダイバーが風景を観察する際に、人目を引く潜望鏡を使わなければ同様の状況を経験する。ランダムに屈折した動的歪みを逆変換することは困難であり、特に視野(field of view, FOV)に存在する物体が動いていると尚更である。一方、動いている物体のみが興味の対象であることは多い。これは動いている物体は、動物や人間、機械の活動を表すからである。更に、動物体を検出し追跡することは、必ずしもシーンを完全に復元する困難なタスクを要求しない。我々は、動物体を非常に単純な方法で、歪が物体の動きよりも圧倒的に大きい条件下でも、誤抽出率を低く検出できることを示す。加えて、動物体は平均移動量がゼロであっても検出できる。物体と歪み方がランダムで且つ未知であれば、これらは相互に独立である。このことを動物体上の点と背景との分離を行う単純な動き特徴を用いて示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.35, No.2


特徴対応付けのための双対分解アプローチ
A Dual Decomposition Approach to Feature Correspondence (Abstract)

L. Torresani, Dept. of Comput. Sci., Dartmouth Coll., Hanover, NH, USA V. Kolmogorov, Inst. of Sci. & Technol., IST Austria, Klosterneuburg, Austria C. Rother, Microsoft Res. Cambridge, Cambridge, UK

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 259-271 , February 2013

Keywords: minimisation,computational complexity,feature extraction,graph theory,image matching,learned model,dual decomposition approach,feature correspondence,sparse image features,unknown nonrigid mapping,extracted image points,object category,energy minimization problem,matching task,objective function,NP-hard problem,graph matching optimization technique,dual decomposition,DD,Vectors,Optimization,Labeling,Computational modeling,Indexes,Feature extraction,Minimization,dual decomposition,Graph matching,feature correspondence

本稿では、未知の非剛体写像(nonrigid mapping)によって対応づけられるスパースな画像特徴と、同じオブジェクトカテゴリの異なる事例画像から展開された点群のように、散乱物や隠蔽で汚れた画像特徴との間の、関係性構築に対する新しいアプローチを提案する。本アプローチでは、この照合作業を、見た目と特徴の空間的配置の間の目的関数の工夫により、エネルギー最小化問題として定式化する。このエネルギー最小化は、一般的にはNP困難問題であるグラフマッチング問題の一例となっている。ここでは、双対分解(Dual Decomposition: DD)と名付けた新しいグラフマッチング最適化手法について説明する。また、本手法が既存のグラフマッチングアルゴリズムよりもすぐれているような種々の例を示す。これらの例のほとんどで、DDにより1分以内に大域的な最小値を見つけることが可能である。この大域的な目標最適化能力により、照合モデルのパラメータを、教師例から正確に学習することが可能となる。本稿では、幾つかの照合作業上で、本学習モデルが、最新の手法よりも優位な結果が得られることを示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


事象シーケンスからのシグネチャ・マイニングのためのフレームワークと、ヘルスケア・データにおけるその応用
A Framework for Mining Signatures from Event Sequences and Its Applications in Healthcare Data (Abstract)

Fei Wang, IBM T.J. Watson Res. Center, Hawthorne, NY, USA Noah Lee, Dept. of Biomed. Eng., Columbia Univ., New York, NY, USA Jianying Hu, IBM T.J. Watson Res. Center, Hawthorne, NY, USA Jimeng Sun, IBM T.J. Watson Res. Center, Hawthorne, NY, USA S. Ebadollahi, IBM T.J. Watson Res. Center, Hawthorne, NY, USA A. F. Laine, Dept. of Biomed. Eng., Columbia Univ., New York, NY, USA

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 272-285 , February 2013

Keywords: stochastic programming,data mining,health care,knowledge representation,learning (artificial intelligence),medical information systems,electronic health record dataset,heterogeneous event sequences,healthcare data,temporal knowledge representation,learning framework,large-scale temporal signature mining,longitudinal heterogeneous event data,high-order latent event structure representation,high-order latent event structure extraction,high-order latent event structure mining,geometric image,event encoding,structured spatial-temporal shape process,doubly constrained convolutional sparse coding framework,interpretable latent temporal event signature learning,shift-invariant latent temporal event signatures,double sparsity constraint,β-divergence,overcomplete sparse latent factor model,stochastic optimization scheme,large-scale incremental learning,group-specific temporal event signatures,synthetic data,Convolution,Sparse matrices,Knowledge representation,Data mining,Complexity theory,Approximation methods,Convergence,beta-divergence,Temporal signature mining,sparse coding,dictionary learning,nonnegative matrix factorization,stochastic gradient descent

本稿では、長期的で不均一な事象データにおいて、大規模な時間的シグネチャ・マイニングを実行するための、時間的な知識表現と学習を行なう新しいフレームワークを提案する。このフレームワークにより、単一または複数の事象系列内に潜在する高次の事象構造と関係性の表現、展開、および探索が可能となる。ここで提案する知識表現では、不均一な事象系列を、構造化された時空間形状プロセスの事象として符号化することにより、幾何的イメージに変換する。また、翻訳可能でシフト不変な潜在的時間事象シグネチャ(shift-invariant latent temporal event signature)を学習する二重制約付き畳み込みスパース符号化(doubly constrained convolutional sparse coding)のフレームワークを提案する。本稿では、過完備なスパース潜在因子モデルを学習するための、β-発散上の二重拘束スパース制約を取り込むことによる、データのスパース性と潜在因子モデルを両立する方法を示す。この新たな統計的最適化法は、グループに特化した時間的事象シグネチャの大規模な漸次的学習に対して有効に機能する。本フレームワークの検証は、模擬データと健康記録電子データセット上で実施した。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


脳コンピュータインタフェースにおける判別的特徴抽出に対する新しいベイズフレームワーク
A Novel Bayesian Framework for Discriminative Feature Extraction in Brain-Computer Interfaces (Abstract)

Heung-Il Suk, Dept. of Comput. Sci. amp; Eng., Korea Univ., Seoul, South Korea Seong-Whan Lee, Dept. of Brain & Cognitive Eng., Korea Univ., Seoul, South Korea

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 286-299 , February 2013

Keywords: spatial filters,approximation theory,Bayes methods,brain-computer interfaces,electroencephalography,feature extraction,information theory,learning (artificial intelligence),medical signal processing,sampling methods,signal classification,spectrally weighted label decision rule,Bayesian framework,discriminative feature extraction,brain-computer interfaces,machine learning,motor imagery classification,EEG-based BCI,class-discriminative frequency bands,spatial filters,probabilistic approach,information-theoretic approach,spatiospectral filter optimization,posterior probability density function,pdf,mental tasks,particle-based approximation method,factored-sampling technique,diffusion process,information-theoretic observation model,classifier design,Electroencephalography,Optimization,Feature extraction,Machine learning,Estimation,Probability density function,Brain computer interfaces,motor imagery classification,Discriminative feature extraction,spatiospectral filter optimization,Brain-Computer Interface (BCI),ElectroEncephaloGraphy (EEG)

被験者からコンピュータへの学習負荷におけるパラダイムシフトが続く中で、機械学習は、脳コンピュータインタフェース(Brain-Computer Interface: BCI)の有用な道具と考えられてきた。本稿では、脳波に基づく脳コンピュータインタフェース(BCI)における、運動野の画像的分類のために、判別的な特徴抽出に関する新しいベイズフレームワークを提案する。このフレームワークでは、クラス判別可能な周波数領域と、それに関連する空間フィルタが、確率的、情報理論的アプローチを用いて最適化される。また、空間周波数フィルタの同時最適化問題は、未知の事後確率密度関数(pdf)の推定として定式化される。ここにおけるpdfは、一つの状態中で判別することができるような、予め定義されたメンタル・タスクの単一試験脳波の確率を表している。この事後確率pdfを推定するために、拡散プロセスを用いた分解サンプリング(factored-sampling)法の拡張による、パーティクルフィルタに基づく近似法を提案した。また、情報理論的観測モデルを、クラス間の特徴判別力を計るために考案した。分類器設計の観点から、本提案手法では、複数の判別器からの出力線形結合により、独自に重みづけられたラベルの決定ルールを自然に構築できるようになっている。また、提案手法の実現可能性と有効性を、結果の分析と3つの公的データベース上での成功事例により示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効果的なバイオメトリック離散化法のための新しい符号化方法: 線形分離可能サブコード(Linearly Separable Subcode)
A Novel Encoding Scheme for Effective Biometric Discretization: Linearly Separable Subcode (Abstract)

Meng-Hui Lim, Sch. of Electr. & Electron. Eng., Yonsei Univ., Seoul, South Korea A. B. J. Teoh, Sch. of Electr. & Electron. Eng., Yonsei Univ., Seoul, South Korea

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 300-313 , February 2013

Keywords: pattern classification,biometrics (access control),cryptography,encoding,entropy,feature extraction,Gray codes,Hamming codes,cryptography,encoding scheme,effective biometric discretization,code separability,Hamming-distance separation,codewords,multibit biometric discretization,quantization-interval labeling,distance dissimilarity preservation,feature component mapping,discrete space,Hamming space,binary reflected Gray code,BRGC encoding,interclass variation,discrete-to-binary mapping,classification performance,binary output entropy,full-ideal separability capability,near-ideal separability capability,partially linearly separable subcode,PLSSC,entropy-performance tradeoff,entropy-redundancy tradeoff,code length,discretization performance,Encoding,Hamming distance,Reflective binary codes,Entropy,Indexes,Quantization,Labeling,linearly separable subcode,Biometric discretization,quantization,encoding

コード中の分離可能性は、コードワード間のハミング距離による分離検出を保証する上で、極めて重要である。コードが量子化間隔のラベリングに使われるような、多ビットのバイオメトリック離散化において、分離可能性は、特徴要素が離散空間からハミング空間に写像されるときの、非類似性に関する距離を保存するために必要とされる。本稿では、交番二進符号(Binary Refrected Gray Code: BRGC)の符号化の分離可能性を調べ、離散値の2値化過程における、クラス間偏差追跡でのBRGCの独立性を明らかにする。この2値化過程は、分類効率と2値出力のエントロピーの間のトレードオフを引き起こす。この難点を克服するために、理想的あるいは準理想的な分離性能をもつ、線形分離可能サブコード(Linearry Separable Subcode: LSSC)および、部分線形分離可能サブコード(Patially Linearry Separable Subcode: PLSSC)の2つの符号化方式を提示する。これらの符号化方式は、伝統的なエントロピー性能のトレードオフを、コード長の増加に対するエントロピー冗長性のトレードオフに変換する。広範な実験結果に基づいて、離散化効率についての既存の符号化方式に対する本提案方式の優位性を立証する。これは、高い出力エントロピー下での、より優れた分類効率の可能性を開くものである。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Earth Mover距離に基づく顕著性計測と非線形特徴の組み合わせによる注視モデル
A Visual-Attention Model Using Earth Mover's Distance-Based Saliency Measurement and Nonlinear Feature Combination (Abstract)

Yuewei Lin, Dept. of Comput. Sci. & Eng., Univ. of South Carolina, Columbia, SC, USA Yuan Yan Tang, Dept. of Comput. & Inf. Sci., Univ. of Macau, Macau, China Bin Fang, Coll. of Comput. Sci., Chongqing Univ., Chongqing, China Zhaowei Shang, Coll. of Comput. Sci., Chongqing Univ., Chongqing, China Yonghui Huang, Coll. of Comput. Sci., Chongqing Univ., Chongqing, China Song Wang, Dept. of Comput. Sci. & Eng., Univ. of South Carolina, Columbia, SC, USA

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 314-328 , February 2013

Keywords: video signal processing,computer vision,feature extraction,video data,nonlinear feature combination,computational visual-attention model,static saliency map,dynamic saliency map,earth mover's distance-based saliency measurement,center-surround difference measurement,Difference-of-Gaussian filter,biologically inspired nonlinear operation,super features,winner-take-all mechanism,spatiotemporal receptive field,static image data,Computational modeling,Visualization,Histograms,Biological system modeling,Educational institutions,Humans,Earth,spatiotemporal receptive field (STRF),Visual attention,saliency maps,dynamic saliency maps,earth mover's distance (EMD)

本稿では、静的および動的な顕著性マップのための、新しい計算機注視モデルを紹介する。最初に、Earth Mover距離(Earth Mover's Dsitance: EMD)を用いて、受容野における中心-周辺差分を計測する。EMDは、これまでの多くの注視モデルに使用されてきたDOG (Difference-of-Gaussian)フィルタの代替である。二番目に、異なる特徴を結びつけるために、生物学から着想を得た2ステップの非線形差要素を適用する。これは、基本的な特徴を、Lmノルムを用いて上位の特徴の集合に結合した後、勝者総取りのメカニズムを用いて上位の特徴と結合するものである。三番目に、提案したモデルを、時空間受容野における中心-周辺差分の計算に対してEMDを用いることで、動画像から得られた動的顕著性マップ構築に対して拡張する。提案モデルの性能評価は、静的画像データと動画データの双方で行なった。比較の結果、提案モデルは、統一された評価設定下での、幾つかの既存のモデルより優れていることが示された。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


視覚顕著性を用いたアピアランスに基づく注視推定
Appearance-Based Gaze Estimation Using Visual Saliency (Abstract)

Y. Sugano, Sato Lab., Univ. of Tokyo, Tokyo, Japan Y. Matsushita, Microsoft Res. Asia, Beijing, China Y. Sato, Sato Lab., Univ. of Tokyo, Tokyo, Japan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 329-341 , February 2013

Keywords: statistical distributions,computer vision,eye,face recognition,feedback,Gaussian processes,gesture recognition,object recognition,regression analysis,user attention estimation,appearance-based gaze estimation,gaze sensing method,visual saliency map,eye image capture,video frames,probability distribution,eye image similarity,gaze point identification,Gaussian process regression,feedback loop,gaze probability map,Visualization,Estimation,Calibration,Feature extraction,Accuracy,Face,Humans,face and gesture recognition,Gaze estimation,visual attention

本稿では、明示的な個人毎の校正を必要としない視覚顕著性マップによる注視検出方法を提案する。その目的は、ビデオクリップを見ている個人から取り込まれた視覚映像だけを用いて、注視推定器を構築することにある。ここで用いた手法では、ビデオフレームの顕著性マップを、注視点の確率分布として扱う。また、顕著性マップから注視点を十分に識別するために、顕著性マップを視覚映像の類似性に基づいて集約する。視覚映像から注視点への写像は、ガウス過程回帰分析(Gaussian process regression)を用いて構築する。さらに、注視確率マップの注視推定精度を改善するために、注視推定器からのフィードバック・ループを用いる。提案手法が、様々な被験者とビデオクリップに対して適切に動作することと、ディスプレイ上のユーザの注視点を推定するのに十分な、3.5°の推定精度が達成されることを、実験結果により示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


A Bag of Dynamical Systems を用いた動的テクスチャ分類
Categorizing Dynamic Textures Using a Bag of Dynamical Systems (Abstract)

A. Ravichandran, UCLA Vision Lab., Univ. of California, Los Angeles, Los Angeles, CA, USA R. Chaudhry, Center for Imaging Sci., Johns Hopkins Univ., Baltimore, MD, USA R. Vidal, Center for Imaging Sci., Johns Hopkins Univ., Baltimore, MD, USA

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 342-353 , February 2013

Keywords: video signal processing,feature extraction,image sequences,image texture,pattern clustering,feature descriptors,video sequence categorization,nonrigid dynamical objects,fire,water,steam,flags,dynamic texture categorization methods,video classification,linear dynamical system,LDS,spatiotemporal patch,bag-of-systems representation,BoS,bag-of-features representation,BoF,object recognition,codewords,nonlinear dimensionality reduction,clustering techniques,Martin distance,Video sequences,Feature extraction,Spatiotemporal phenomena,Measurement,Heuristic algorithms,Observability,Training,linear dynamical systems,Dynamic textures,categorization

本稿では、動的テクスチャ、即ち、火、水、流れ、旗、などの柔らかく動的な物体に関するビデオシーケンスの分類問題を考察する。動的テクスチャでは、形や見た目が時間の関数として連続的に変化するために、この問題は極めて難解な問題となる。最新の動的テクスチャ分類法は、各映像のモデル化に線形力学系(Linear Dynamical System: LDS)を用い、映像の分類にLDS空間における距離、あるいはカーネルを用いることで、同一の観察点とスケールで撮影された動画の分類に対して成功を納めてきた。しかしながら、これらの手法には、映像シーケンスが異なる視点やスケールで取られた場合には、十分に機能しない課題があった。本稿では、そのような違いを取り扱うことのできる、新しい動的なテクスチャ分類フレームワークを提案する。提案方式では、各映像シーケンスを、LDSのコレクションを用いてモデル化する。個々のLDSは、映像から展開された小さな時空間的パッチを記述する。この Bag-of-System (BoS) 表現は、特徴記述としてLDSを用いる点を除いて、物体認識に対するBag-of-Features (BoF) 表現と同様である。しかし、この選択により、伝統的なBoFアプローチを適用する上での、幾つかの技術的課題を生じる。とりわけ、LDSの空間はユークリッド的でないため、LDSの分類と符号語の計算に、新しい方式の開発が必要となる。本稿では、非線形な次元削減と、LDSに対するMartin距離に結びつけられたクラスタリング方法を、これらの課題解決に利用するフレームワークを提案する。実験では、提案したBoSアプローチと、既存の動的テクスチャ分類方法の比較を行ない、従来方法では取り扱うことのできない挑戦的なシナリオにおいて、BoSが動的テクスチャの認識に利用できることを示した。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動的環境における CoSLAM (Collaborative Visual SLAM)
CoSLAM: Collaborative Visual SLAM in Dynamic Environments (Abstract)

Danping Zou, Dept. of Electr. & Comput. Eng., Nat. Univ. of Singapore, Singapore, Singapore Ping Tan, Dept. of Electr. & Comput. Eng., Nat. Univ. of Singapore, Singapore, Singapore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 354-366 , February 2013

Keywords: stereo image processing,cameras,computer vision,image fusion,image motion analysis,object detection,pose estimation,SLAM (robots),static environment,CoSLAM,collaborative visual SLAM,dynamic environment,vision-based simultaneous localization and mapping,multiple cameras,global map building,3D position,static background points,moving foreground point trajectory,intercamera pose estimation,intercamera mapping,dynamic objects,system robustness,position uncertainty,map point,intercamera operation,view overlap,Cameras,Simultaneous localization and mapping,Three dimensional displays,Uncertainty,Estimation,Robot vision systems,Robustness,structure-from-motion,Visual SLAM,swarm,dynamic environments

本稿では、複数台のカメラによる、動的環境下における視覚に基づくSLAM (simultaneous Localization and mapping : 同時局所適応地図構築)の問題を扱う。これらのカメラは独立に動作し、様々なプラットホームに搭載することが可能である。全てのカメラは、静的な背景ポイントの3次元的配置と、移動する前景ポイントの軌跡を含めた大域地図を構築するために協調動作する。本稿では、局所化と地図化プロセスにおける動的物体を処理するためのカメラ間姿勢推定と、カメラ間写像を導入する。また、システムの頑健性を向上させるために、地図上の各点の位置の不確かさを保守する。さらに、カメラ間の処理を補助するために、カメラ視野の重なりに従って、カメラをグループに集約する。本提案のシステムが、高度に動的な環境では頑健に動作し、静的な環境では、より精度の高い結果が得られることを実験結果により示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数の画像空間にまたがる学習辞書に基づく画像変換
Image Transformation Based on Learning Dictionaries across Image Spaces (Abstract)

Kui Jia, Adv. Digital Sci. Center, Univ. of Illinois at Urbana-Champaign, Urbana, IL, USA Xiaogang Wang, Dept. of Electron. Eng., Chinese Univ. of Hong Kong, Shatin, China Xiaoou Tang, Dept. of Inf. Eng., Chinese Univ. of Hong Kong, Shatin, China

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 367-380 , February 2013

Keywords: regression analysis,dictionaries,feature extraction,image representation,image resolution,image restoration,learning (artificial intelligence),pattern clustering,image restoration,source image space,target image space,image superresolution,image intrinsic component estimation,image shading,albedo,local parametric regression approach,sparse feature representation,coupled dictionary learning,sparse coefficient vectors,easily retrievable local clusters,image patch,sparse representation,target image pixel,image reconstruction,sparse coding,space partitioning scheme,high-dimensional sparse feature space,query patch,sparse feature-based image transformation,Dictionaries,Training,Vectors,Encoding,Image coding,Image resolution,Estimation,super-resolution,Image transformation,image mapping,sparse coding,intrinsic images

本稿では、一対画像のトレーニング集合による結合辞書(coupled dictionalies)の学習に基づく、ソース画像空間からターゲット画像空間への画像変換のフレームワークを提案する。このフレームワークは、超解像や画像の潜在要素(陰影やアルベド)の推定に応用可能である。これは、ソースおよびターゲット画像空間にまたがる学習された連結辞書上の、スパースな特徴表現を用いた局所パラメトリック再帰アプローチに基づいている。まず、辞書対学習の後、学習画像パッチのスパース係数ベクトルは、容易に復元可能な局所クラスタへと分割される。このとき、任意のテスト画像パッチに対して、高速インデックスを、それに最も近い局所クラスタに割りつけることができ、学習したスパースな特徴空間の間の局所パラメトリック回帰が実行される。得られたスパース表現は、(学習されたターゲット空間辞書と合わせて)推定すべきターゲットの各画素に対する複数の制約を与える。最終的なターゲット画像は、これらの制約に基づいて再構築される。提案のフレームワークについて、本研究の主な学術的価値は次の3項に要約される。1) 組み合せられたスパースコーディングに基づく結合辞書学習(coupled dictionary leraning)のコンセプトを提案した。このスパースコーディングでは、一組の関連ソースとターゲット画像パッチが、同一の台(support※)を持つ(即ち、非ゼロ要素のインデックスが同じになる)ような、スパース係数ベクタが要求される。2)高次元だがスパースな特徴空間を、局所クラスタに分割する方法を考案した。この分割機能は極めて高速に、クエリパッチに対して最も近い局所クラスタを検索する。3)スパースな特徴に基づく画像変換による利点から、本方法は汚れた入力データに対して、より頑健である。また、画像の修復と変換の処理を同時と見なすことができる。潜在画像の推定と超解像の実験により、提案手法の有効性と効率性を示す。 ※訳注: 一般的に、関数fに対して、その定義域でfが非ゼロの値を取るような部分集合(あるいはその閉包(closure))をfの台(support)と呼び、supp(f) 等の記号で表す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3次元顔認識のための対話的最近直交点
Iterative Closest Normal Point for 3D Face Recognition (Abstract)

H. Mohammadzade, Dept. of Electr. & Comput. Eng., Univ. of Toronto, Toronto, ON, Canada D. Hatzinakos, Dept. of Electr. & Comput. Eng., Univ. of Toronto, Toronto, ON, Canada

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 381-397 , February 2013

Keywords: iterative methods,face recognition,ROC III experiments,iterative closest normal point,3D face recognition,gallery faces,facial expression variation,generic reference face,discriminant analysis methods,expression variation problem,within-class variability,discriminatory information,face recognition grand challenge database,3D face database,false acceptance rate,Face,Three dimensional displays,Nose,Face recognition,Databases,Vectors,Principal component analysis,LDA,Three-dimensional,face recognition,expression variation,point correspondence,3D registration,surface normal vector

3次元顔認識に共通するアプローチは、被験者の顔それぞれに対して、検出用の顔(プローブフェィス)を登録し、それらの点の間の距離の総和を計算することである。しかし、このアプローチは、計算負荷が高く、また、顔表現のバリエーションに対して過敏となる欠点がある。本稿では、一般的な参照される顔と入力された顔それぞれの間の対応点を見つけるための、対話的な最近直交点法を紹介する。提案する対応点の探索方法では、それぞれの顔から最近直交点として示される一組の点を抽出する。これらの点は、3次元顔認識に対する判別分析が効率良く適用できるように、全ての顔を効率良く整列する。その結果、表現バリエーションの問題は、顔サンプルをクラス間可変性を最大化しつつ、クラス内可変性を最小化する問題として扱われる。これによる重要な結論として、抽出点における顔の表面直交ベクトルが、それらの点の座標より識別力の高い情報を含んでいることを示す。現状手に入る最大の3次元の顔データベースである顔認識グランドチャレンジデータベース(Face Recognition Grand Challenge database)上で、広範な実験を行なった。その結果、許容誤答率0.1%の、全組み合わせ対比(all versus all)とROC IIIの実験で、それぞれ、正答率99.6と99.2%が達成された。これらは、我々の知るところの最高成績であり、当該データベース上にある最良の方法と比較して、それぞれ1/7、および、1/4の誤答率となっている。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


周辺分布の競合アセンブリによる多変量分布学習
Learning Multivariate Distributions by Competitive Assembly of Marginals (Abstract)

F. Saánchez-Vega, Dept. of Appl. Math. & Stat., Johns Hopkins Univ., Baltimore, MD, USA J. Eisner, Dept. of Comput. Sci., Johns Hopkins Univ., Baltimore, MD, USA L. Younes, Dept. of Appl. Math. & Stat., Johns Hopkins Univ., Baltimore, MD, USA D. Geman, Dept. of Appl. Math. & Stat., Johns Hopkins Univ., Baltimore, MD, USA

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 398-410 , February 2013

Keywords: statistical distributions,belief networks,integer programming,learning (artificial intelligence),linear programming,computational biology,competitive marginal assembly,high-dimensional multivariate probability distribution learning,estimated marginals,Bayesian networks,elementary statistical building blocks,low-dimensional marginal distributions,Lego-like fashion,probabilistic graphical model,parameter estimation,structure search,integer linear program,maximizing composition,natural language processing,Bayesian methods,Assembly,Computational modeling,Probability distribution,Object oriented modeling,Connectors,Joints,linear programming,Graphs and networks,statistical models,machine learning

本稿では、周辺推定からの高次元の多変量確率分布学習に対する新しいフレームワークを提案する。このアプローチは、複合モデル(composition model)とベイジアンネットワークが動機となっており、サンプルサイズが小さい場合に適応するように設計されている。ここではまず、データから学習される低次元の周辺分布である統計的基本要素、"プリミティブ"の重複のある大きな集合から始める。それぞれの変数は、多くのプリミティブに現れる場合がある。プリミティブの部分集合は、確率的グラフモデルを構築するために、レゴのような方法で結合される。そこでは、全ての妥当な構成に対して、ほんの一部のプリミティブの断片だけが用いられる。プリミティブは事前に計算することができるため、パラメータ推定と構造探索は分離される。モデルの複雑さは、強いバイアスにより制御される。ここでは、プリミティブを、トレーニングデータの量に応じて、それらを妥当な組合せとして合成するための条件として負わせる。データの尤度は、最終的な構造における個々のプリミティブに対する局所ゲインの和に分解される。本稿では、特に2分木の森(binary forests)であるネットワークの特定のサブクラスに焦点を当てる。整数線形計画法に関する構造最適化と、組成最大化(maximizing composition)は、適度に多くの変数に対して算出することが可能である。効率の評価は、合成データと自然言語処理および計算生物学からの実データセットの双方を用いて行なった。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所アフィン不変量と線形計画法を用いたオブジェクトマッチング
Object Matching Using a Locally Affine Invariant and Linear Programming Techniques (Abstract)

Hongsheng Li, Comput. Sci. Dept., Southwestern Univ. of Finance & Econ., Chengdu, China Xiaolei Huang, Dept. of Comput. Sci. & Eng., Lehigh Univ., Bethlehem, PA, USA Lei He, Digital Conversion Service, Libr. of Congress, Potomac, MD, USA

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 411-424 , February 2013

Keywords: linear programming,computational geometry,image matching,least squares approximations,matched point reconstruction errors,object matching,locally affine-invariant geometric constraint,linear programming techniques,linear programming formulation,auxiliary variables,template point set,least squares,Linear programming,Mathematical model,Pattern matching,Least squares approximation,Probabilistic logic,Vectors,USA Councils,linear programming,Feature matching,object matching,locally affine invariant

本稿では、新たな局所アフィン不変な幾何拘束と、線形計画法に基づく新しいマッチング方法を紹介する。線形計画法の定式化のもとで、モデル化とマッチング問題を解くために、全ての幾何拘束は、正確あるいは近似的に線形形式に置き換えられなければならない。このことは、この種のマッチングアルゴリズムに対する主要な難点である。ここでは、厳密に線形化することが可能で、補助変数が、他の線形計画法に基づく方法よりも、ずっと少なくてすむような、新たな局所アフィン不変拘束を提案する。背景にある鍵となるアイデアは、テンプレート点集合の各々の点が、その近傍の点のアフィン結合により正確に表現できることであり、また、このときの近傍点の重みづけが、最小二乗法で容易に解くことができることである。そのような、重み付けにより適合した各点の再構築による誤差は、テンプレートの点と適合した点の間の幾何学的な不一致度に関するペナルティとして利用される。結果として得られる全体的な目的関数は、線形計画法により効率よく解くことができる。剛体および非剛体オブジェクトのマッチング試験の結果により、提案したアルゴリズムの有効性を示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スパースな誤差再構築による、画像位置合わせと画像分割の頑健な同時処理
Robust Simultaneous Registration and Segmentation with Sparse Error Reconstruction (Abstract)

P. Ghosh, Microsoft Corp., Redmond, WA, USA B. S. Manjunath, Dept. of Electr. & Comput. Eng., Univ. of California Santa Barbara, Santa Barbara, CA, USA

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 425-436 , February 2013

Keywords: image sequences,image reconstruction,image registration,image segmentation,outdoor natural image sequences,sparse error reconstruction,simultaneous registration and segmentation,dense correspondence map,partial occlusion,shading,reflections,sparse nature,segmentation functional,dual Rudin-Osher-Fatemi model,ROF,biological image sequences,Shape,Robustness,Image segmentation,Optical imaging,Image reconstruction,Adaptive optics,Lighting,optimization,Segmentation,registration,tracking

本稿では、画像の位置合わせと、画像分割の同時処理(Simultaneous Registratin and Segmentation: SRS)に対する高速で効率の良い変動するフレームワークを紹介する。ここでは、(連続フレーム間の)緻密な対応写像が、部分的な隠蔽、陰付き、反射があっても、正確に再構築できることを示す。本フレームワークでは、それらのスパース性を利用して、誤差を効率良く処理する。加えて、画像分割汎関数は、高速実装として双対Rudin-Osher-Fatemi (ROF)モデルを用いて再定式化される。さらに、この双対ROFモデルに適切なノンパラメトリック形状優先項を提案する。提案手法の効果検証では、屋内および野外の、自然画像系列及び生物学的画像系列双方での広範な実験を行った。そこでは、様々な最新手法と比較して、本提案手法が、より高精度で効率の良いことが示された

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ハイパーグラフを用いた陰影、照明およびジオメトリの同時推定
Simultaneous Cast Shadows, Illumination and Geometry Inference Using Hypergraphs (Abstract)

A. Panagopoulos, Dept. of Comput. Sci., Stony Brook Univ., Stony Brook, NY, USA Chaohui Wang, Center for Visual Comput., Ecole Centrale Paris, Chatenay-Malabry, France D. Samaras, Dept. of Comput. Sci., Stony Brook Univ., Stony Brook, NY, USA N. Paragios, Center for Visual Comput., Ecole Centrale Paris, Chatenay-Malabry, France

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 437-449 , February 2013

Keywords: solid modelling,computational geometry,inference mechanisms,lighting,Markov processes,minimisation,scene geometry,simultaneous cast shadows,geometry inference,hypergraphs,illumination environment,higher order Markov random field,light sources,graphical model,higher order cliques,continuous-valued variables,two-stage minimization technique,MRF energy,generic coarse 3D model,Geometry,Lighting,Light sources,Three dimensional displays,Estimation,Image edge detection,Solid modeling,image models,Markov random fields,photometry,shading

画像における陰影は、照明およびジオメトリに関する重要な情報を提供する。本稿ではこの情報を、新しいフレームワークの中で、照明環境と一連の幾何パラメータ、および、単一の画像と粗い初期の3Dジオメトリで与えられる情景の推定陰影を、複合して再現するために利用する。ここでは、情景中の照明と陰影の相互作用をモデル化する。そして、それを高次マルコフ確率場 (MRF: Markov Random Field)照明モデルを用いて、陰影に対する画像証拠(image evidence for cast shadows)との関連づけを行う。また、この陰影に対する画像証拠の近似を得るための方法も紹介する。ここで提案したグラフィカルモデルにおいて、光源とジオメトリの間の相互作用を取得することは、推定が困難な高次のクリーク(clique)と連続変数を必要とする。そこで、領域知識の利点を生かすために、提案モデルのMRFエネルギーに対する2段階の最小化技法を開発した。 提案モデルの評価には、合成されたデータベースと、実データベースの2つの異なるデータベース双方を使用した。本提案モデルは、ジオメトリに関する大雑把な知識と、不正確な陰影推定の初期値に対して頑健である。これにより、スパースな生成的3Dモデルで、照明推定のタスクに対するオブジェクトのクラス全体を表現することや、幾何パラメータを推定により、照明推定と同時にシーンジオメトリの初期知識をリファインすることが可能となる。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


擾乱下での動画安定化と移動物体の検出の同時処理
Simultaneous Video Stabilization and Moving Object Detection in Turbulence (Abstract)

O. Oreifej, Univ. of Central Florida, Orlando, FL, USA Xin Li, Univ. of Central Florida, Orlando, FL, USA M. Shah, Univ. of Central Florida, Orlando, FL, USA

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 450-462 , February 2013

Keywords: video signal processing,atmospheric turbulence,Gaussian noise,image motion analysis,matrix decomposition,object detection,atmospheric turbulence,simultaneous video stabilization,moving object detection,turbulence mitigation,optical turbulence,averaging techniques,dewarping techniques,three-term low-rank matrix decomposition approach,turbulence sequence,background,nuclear norm,Frobenius norm,21 norm,Gaussian noise,Gaussian-like turbulence,Gaussian-based turbulence model,Optimization,Mathematical model,Equations,Minimization,Matrix decomposition,Force,Object detection,restoring force,Three-term decomposition,turbulence mitigation,rank optimization,moving object detection,particle advection

擾乱の緩和(turbulence mitigation)は、光学的な擾乱作用に起因する、不均一な変形を伴う動画の安定化に関するものである。擾乱の緩和に対する典型的なアプローチは、平均化や歪み補正技術によっている。これらの手法は擾乱を低減することができるものの、それらは、しばしば高い関心の対象となる独立に移動する物体を変形してしまう。本稿では、擾乱緩和と移動物体検出を同時に処理する新しい課題を扱う。ここでは、新しい3項からなる低ランク行列分解アプローチを提案する。このアプローチでは、擾乱シーケンスを、背景、擾乱、オブジェクト、の3つの成分に分解する。そして、この非常に困難な課題を、単純に、核ノルム、フロベニウスノルム、および、L1ノルムの最小化問題に帰着させる。これらの方法は、次の2点の観察に基づいている。一つ目は、擾乱は稠密でガウス分布に従うノイズを引き起こすということである。従って、擾乱はフロベニウスノルムにより検出することが可能である。一方、移動物体はスパースであるため、L1ノルムにより検出することができる。二つ目は、物体の動きは、線形で本質的にガウス分布的な擾乱と異なっているということである。従って、ガウス分布に基づく擾乱モデルは、最小化の探索空間上の付加的な制約を、強制するために利用することができる。本アプローチの頑健性を、大気の擾乱により著しく歪み、極めて小さい移動物体を含んだ挑戦的なシーケンス上で示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非剛体形状の復元に対する曖昧性の統計的探索
Stochastic Exploration of Ambiguities for Nonrigid Shape Recovery (Abstract)

F. Moreno-Noguer, Inst. de Robot. i Inf. Ind., UPC, Barcelona, Spain P. Fua, Comput. Vision Lab., EPFL, Lausanne, Switzerland

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 463-475 , February 2013

Keywords: stochastic processes,computational geometry,image reconstruction,image sampling,minimisation,solid modelling,nonlinear minimization problem,stochastic ambiguity exploration,nonrigid shape recovery,3D shape,deformable surfaces,deformation modes,geometric constraints,image measurements,stochastic sampling approach,objective function,point correspondences,Shape,Three dimensional displays,Image reconstruction,Space exploration,Covariance matrix,Light sources,Deformable models,monocular shape estimation,Deformable surfaces

多くの異なる形状が、非常に似通った投影形状を持ちうることから、変形可能な3D表面形状を単一画像から復元することは、高度な曖昧性問題であることが知られている。この問題は一般的には、可能な形状の集合を、変形モードの線形結合に制限することや、付加的な幾何学的制約を強制する方法で取り組まれる。しかしながら、画像計測量にはノイズが多いため、そのような制限が、いつでも正確な形状が復元されることを保証するとは限らなかった。この制約を乗り越えるために、本研究では統計的サンプリグアプローチを導入した。このアプローチは、点の関係性に基づいた目的関数の解集合を効率的に探索する。これにより、曖昧な3D形状候補の小さな集合を提示し、最適なものを選択するための付加的な画像情報を用いることが可能となる。コンセプトの証明として、本稿では、動きあるいは陰影の手掛かりを、この分野に適用することで、困難の多い非線形最小化問題を解くこと無く、複雑な目的関数を扱うことが可能であることを示す。また、実データおよび合成データの双方を含む種々の問題により、本手法の優位性を示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


インタラクティブ画像ラベリングのための木構造CRFモデル
Tree-Structured CRF Models for Interactive Image Labeling (Abstract)

T. Mensink, LEAR Team, INRIA Rhone-Alpes, Montbonnot, France J. Verbeek, LEAR Team, INRIA Rhone-Alpes, Montbonnot, France G. Csurka, Xerox Res. Centre Eur. Grenoble, Meylan, France

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 476-489 , February 2013

Keywords: trees (mathematics),image classification,interactive systems,probability,benchmark datasets,tree-structured CRF models,interactive image labeling,structured prediction models,dependency relations,label predictions,interactive scenario,label accuracy,manual labeling effort,attribute-based image classification,class probabilities,attribute-class mapping,Predictive models,Vectors,Labeling,Image edge detection,Pattern recognition,Kernel,Training,statistical pattern recognition,Pattern recognition application computer vision,pattern recognition interactive systems,object recognition,content analysis and indexing

本稿では、画像ラベル間の依存性を陽に考慮した、画像ラベリングに対する構造化予測モデルを提案する。ここで提案する木構造モデルでは、画像ラベルはノードであり、エッジは依存関係を符号化する。また、単一ノードにおけるラベルと混合ツリーの利用を組み合わせることで、より複雑な依存関係にも対応可能とした。このモデルは、独立予測よりも表現力があり、より正確なラベル予測を導く。これらのメリットは、ユーザがテスト時に画像ラベルの幾つかの値を提供するような対話的なシナリオにおいて、より顕著になる。そのような対話的なシナリオは、ラベル精度と手作業によるラベルづけの労力との間の興味深いトレードオフをもたらす。構造化モデルは、どのラベルをユーザが設定するべきかの決定と、ユーザ入力を、他の画像ラベル上のより正確な予測に変換することに使用される。さらに本稿では、この構造化モデルを、属性に基づく画像分類にも適用する。そこでは、評価画像の属性予測が、与えられた属性クラス写像を用いて、クラス確率に写像される。3つの一般的に利用可能なベンチマーク・データセットを用いた実験では、全てのシナリオにおいて、本提案の構造化モデルが、より正確な予測を導出し、ユーザ入力は、最新の独立モデルよりもずっと効果的に活用されることが示された。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


トレーニング可能なキーポイント検出とパターン認識のためのCOSFIREフィルタ
Trainable COSFIRE Filters for Keypoint Detection and Pattern Recognition (HTML)

N. Petkov, Johann Bernoulli Inst. for Math. & Comput. Sci., Univ. of Groningen, Groningen, Netherlands G. Azzopardi, Johann Bernoulli Inst. for Math. & Comput. Sci., Univ. of Groningen, Groningen, Netherlands

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 490-503 , February 2013

Keywords: shape recognition,computer vision,Gabor filters,object detection,traffic signs recognition,trainable COSFIRE filters,keypoint detection,pattern recognition,computer vision applications,shape properties,combination of shifted filter responses,local contour pattern,Gabor filters,blur parameters,shift parameters,shape-selective neurons,visual cortex,retinal vascular bifurcations,handwritten digits recognition,Prototypes,Gabor filters,Shape,Detectors,Vectors,Handwriting recognition,shape,Feature detection,feature representation,medical information systems,object recognition,optical character recognition

背景:キーポイント検出は、多くのコンピュータ・ビジョン応用に於いて重要である。しかし、既存の手法は、特徴の形状属性に関する不十分な選択制のために、コントラストの変化や、ノイズやテクスチャの存在に対して脆弱になっている。方法:ここでは、シフトフィルタ応答結合 (Combination Of Shifted FIlter REspose: COSFIRE)と名付けたトレーニング可能なフィルタを提案し、キーポイント検出とパターン認識に使用する。COSFIREは、事例により指定された輪郭パターンに対して選択できるよう自動的設定される。設定内容は、与えられたガボール・フィルタバンクのチャンネルの選択と、特定のぼやけおよびシフトパラメータの決定からなる。COSFIREフィルタの応答は、選択されたガボールフィルタのぼやけと、シフトの応答の重みつき幾何平均により計算される。同様の特性は、視覚野における、いくつかの形状選択ニューロンの間で共有される。本研究のインスピレーションは、このことから得られたものである。結果:我々は、3つの応用事例により、提案したフィルタの有効性を示す。1) 網膜の血管分岐の検出 (DRIVEデータセット: 再現率 98.5%, 精度 96.09%)、2) 手書き数字認識 (MINSTデータセット: 分類正答率 99.48%)、3) 複雑なシーンにおける交通標識の検出と認識 (再現率、精度とも 100%)。まとめ:提案したCOSFIREフィルタは、概念がシンプルで実装が容易である。それらは、用途の広いキーポイント検出器であり、実用的なコンピュータ・ビジョン応用において極めて効果的である。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高速コストボリュームフィルタによる画像的対応付けとその応用
Fast Cost-Volume Filtering for Visual Correspondence and Beyond (Abstract)

A. Hosni, Inst. of Software Technol. & Interactive Syst., Vienna Univ. of Technol., Vienna, Austria C. Rhemann, Inst. of Software Technol. & Interactive Syst., Vienna Univ. of Technol., Vienna, Austria M. Bleyer, Inst. of Software Technol. & Interactive Syst., Vienna Univ. of Technol., Vienna, Austria C. Rother, Microsoft Res. Cambridge, Cambridge, UK M. Gelautz, Inst. of Software Technol. & Interactive Syst., Vienna Univ. of Technol., Vienna, Austria

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp. pp. 504-511 , February 2013

Keywords: stereo image processing,computer vision,image colour analysis,image segmentation,image sequences,smoothing methods,interactive image segmentation,fast cost-volume filtering,visual correspondence,computer vision,labeling problem,spatially smooth labeling,label transition,input image color edge,label cost smoothing,edge-preserving filter,cost volume,winner-takes-all label selection,disparity map,Middlebury stereo benchmark,optical flow field,robustness,Optical imaging,Image color analysis,Vectors,Image edge detection,Image segmentation,Labeling,Stereo vision,interactive image segmentation,Stereo matching,optical flow

多くのコンピュータビジョンに関する作業は、ラベリング問題として定式化される。ここで望まれる解は、しばしば、ラベルの遷移が、入力画像のカラーエッジにより整列されているような、空間的に滑らかなラベリングである。本稿ではそのような解が、非常に高速なエッジ保存フィルタを用いたラベルコストの平滑化により、効率良く得られることを示す。ここでは、次の3段階からなる一般的でシンプルなフレームワークを提案する。1) コストボリュームの構築、2)高速コストボリュームフィルタリング、および、3)勝者総取りラベル選択、である。本研究の主要な成果は、そのようなシンプルなフレームワークを用いても、いくつかのコンピータビジョンの応用において、最高水準の結果が得られることにある。本手法の特筆するべき利点として、1) ミドルバリーステレオ・ベンチマークセットによる試験では、他の全ての高速(局所)アプローチよりも優れた品質の視差地図(disparity map)を実時間で生成できる。2) 大規模な位置ずれと同時に、非常に詳細な構造も含むオプティカルフロー場が得られる。提案したフレームワークが持つ少数のパラメータは、両方の応用に対してほぼ同等な値に設定できることから、本方式の頑健性が示される。対話的な画像分割に対する競合優位な結果も示される。本研究が他の研究者の刺激となって、他の応用領域にこのフレームワークが活用されることが望まれる。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.35, No.3


Earth Mover's Distanceを用いたプロトタイプ学習フレームワーク : 複雑なシーンの解析への応用
A Prototype Learning Framework Using EMD: Application to Complex Scenes Analysis (Abstract)

Elisa Ricci, University of Perugia, Perugia Gloria Zen, University of Trento, Trento Nicu Sebe, University of Trento, Trento Stefano Messelodi, Fondazione Bruno Kessler, Trento

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 3, pp. pp. 513-526 , March 2013

Keywords: Histograms,Prototypes,Image analysis,Context,Optimization,Clustering algorithms,Optical imaging,parametric linear programming,Video surveillance,complex scene analysis,earth mover's distance

監視カメラの映像における自動的なシーン認識手法を開発するため、過去10年間に多大な労力が投入された。本論文では複雑なシーンを解析するための、物体に主眼を置かない(nonobject centric)新しいアプローチを提案する。従来手法と同様に、我々は低レベルの手掛り(low-level cues)を用いて微小な活動(atomic activities)を識別し(individuate)、断片的なヒストグラム(clip histograms)を作成する。一方で近年の手法とは異なり、高レベルの活動パターンを検出する課題を凸プロトタイプ学習問題(convex prototype learning problem)として定式化する。この問題は、一般的なソルバで効率的に解くことのできる、単純な線形計画問題に帰着する。我々の手法の主な利点は、Earth Mover's Distance (EMD)を目的関数とすることで、学習過程において基本動作(elementary activity)間の類似度が考慮される点にある。拡張性を向上させるためEMDの複数の変数に、一次元と二次元の、直線と円周上ヒストグラムに対する大圏距離(ground distance)としてL1ノルムを採用する。この様なケースでは、ヒストグラムの隣接する区間に対応する、近隣する微小な活動の間の類似度のみが考慮される。したがって、我々は微小な活動を自動的に並べ替える戦略も併せて提案する。一般に公開されているデータセットを用いた実験により、提案手法は最先端のアプローチと同等以上の性能を示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時空間方向分析に基づく動作の検出と認識
Action Spotting and Recognition Based on a Spatiotemporal Orientation Analysis (Abstract)

Konstantinos G. Derpanis, York University, Toronto Mikhail Sizintsev, York University, Toronto Kevin J. Cannons, York University, Toronto Richard P. Wildes, York University, Toronto

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 3, pp. pp. 527-540 , March 2013

Keywords: Spatiotemporal phenomena,Clutter,Energy measurement,Visualization,Dynamics,Robustness,Cameras,real-time implementations,Action spotting,action recognition,action representation,human motion,visual spacetime,spatiotemporal orientation,template matching

本論文では、動作検出と動作認識という相互に関連するトピックに関する統合フレームワークを提供する。動作検出とは、映像中に存在する人物の動作の時空間における検出と位置特定を行うことである。また、動作認識とは、与えられた映像を事前に定義された複数のカテゴリの一つに分類することである。視覚的な時空間指向のエネルギー尺度(visual spacetime oriented energy measurements)に基づき、動作検出と認識の意味での映像の動力学(video dynamics)の新しいコンパクトな局所記述子を導入する。この記述子は、生の画像の輝度データから直接的に効率良く計算することができ、フロー・ベースの特徴(flow-based features)に対して一般的に付きまとう問題を回避できる。重要な点は、この記述子は二つの映像断片に潜む動力学を、衣服の違いなど空間的な外観とは無関係に、且つ乱雑さ(clutter)に頑強に比較できることにある。また、この記述子に関連付けられた、効率的で網羅的な動作テンプレートの検索を実現する類似性尺度を導入する。動作テンプレートは基準映像から導出され、候補となる映像系列に対して検索される。提案する動作検出と認識のための汎用的なアプローチは、多くの重要な用途において必須となる効率的な実装が可能である。動作検出に関しては、提案するアプローチのGPUを用いた実装によるリアルタイム処理の詳細が示される。難易度の高いデータセットに対する動作検出と動作認識に関する評価実験から、提案アプローチがデータセットに付随する最先端技術の性能解析結果よりも効率的であることが示唆される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


中心−周辺顕著性メカニズムを用いた生物学を模擬する物体追跡
Biologically Inspired Object Tracking Using Center-Surround Saliency Mechanisms (Abstract)

Vijay Mahadevan, Yahoo! Labs, Bangalore Nuno Vasconcelos, University of California at San Diego, La Jolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 3, pp. pp. 541-554 , March 2013

Keywords: Target tracking,Biology,Visualization,Object detection,Robustness,Adaptation models,video modeling,Object tracking,discriminant tracking,saliency,attention,motion saliency,automatic target initialization,scale adaptive tracking,discriminant center-surround architecture

生物学に触発された(biologically inspired)判別的な物体追跡器(discriminant object tracker)を提案する。判別的な追跡は、視覚的注意の遷移を導く顕著性メカニズム(saliency mechanism)をトップダウンによりチューニングした結果であることを論ずる。判別的顕著性(discriminant saliency)の原理を用い、中心周辺顕著性(center-surround saliency)、注意の空間的なスポットライト(spatial spotlight of attention)、そして特徴ベースの注意(feature-based attention)の組み合わせを実装する追跡器を導出する。このフレームワークでは、追跡という課題を対象と背景との連続的な分離問題の一種として定式化し、二段階に分けて実装する。学習段である第一段階では、注意の焦点(focus of attention, FoA)メカニズムとボトムアップの顕著性を統合し、対象の検出に最も判別的な特徴セットを特定する。検出段である第二段階では、特徴ベースの注意メカニズムと対象に特化したトップダウンの判別的顕著性検出器を用い、対象を検出する。全体として、追跡器は映像のフレームの対象位置から判別特徴を学習するステップと、次のフレームから対象の位置を検出するステップとを繰り返す。コンセプトとしてシンプルで且つ計算効率の高い実装を実現するために、自然画像の統計的性質を活用する。顕著性の表現は、識別器の設計、対象の検出、追跡器の自動的な初期化、そして変倍への適応を実現する統合フレームワークとしても利用できることを示す。実験結果により、提案する判別的顕著性追跡器は最先端技術の多くを凌駕することが示される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


不均質な関与媒体を復元する圧縮構造化光
Compressive Structured Light for Recovering Inhomogeneous Participating Media (Abstract)

Jinwei Gu, Rochester Institute of Technology, Rochester Shree K. Nayar, Columbia University, New York Eitan Grinspun, Columbia University, New York Peter N. Belhumeur, Columbia University, New York Ravi Ramamoorthi, University of California at Berkeley, Berkeley

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 3, pp. pp. 1 , March 2013

Keywords: Image reconstruction,Cameras,Media,Atmospheric measurements,Particle measurements,Volume measurement,Spatial resolution,Image Representation,Image reconstruction,Cameras,Media,Atmospheric measurements,Particle measurements,Volume measurement,Spatial resolution,Volumetric,Computing Methodologies,Image Processing and Computer Vision,Scene Analysis,Photometry,Artificial Intelligence,Applications and Expert Knowledge-Intensive Systems,Computer vision,Vision and Scene Understanding,Modeling and recovery of physical attributes

我々は、圧縮構造化光(compressive structured light)と呼ぶ、不均質な関与媒体(inhomogeneous participating media)(*1)を復元する新しい手法を提案する。従来の構造化光技術は、不透明な物体の表面に符号化された光のパターンを投影することで、三角測量に用いる関連性を構築している。一方、圧縮構造化光は、立体的な関与媒体にパターンを投影することで、視線に沿って体積密度を積分した結果(integral measurement of the volume density along the line of sight)となる画像を作成する。実世界に存在する一般的な関与媒体は、得られた画像の積分的性質(integral nature)から、少数の計測値から元の体積密度を復元できる圧縮センシング技術(compressive sensing technique)を利用できる。これにより計測過程をより効率化し、動的な立体的事象(dynamic volumetric phenomena)の再構成を可能とする。更に、提案手法は多重の符号化光(multiplexed coded illumination)を投影することから、計測におけるSN比を向上させる効果もある。最後に、我々は再構成過程における関与媒体の希薄化(attenuation)を補正するアルゴリズムを提案する。シミュレーションと実験とから提案手法の有効性を示す。実験では複数の透過層、ガラスにエッチングされた三次元の点群、そして牛乳の液滴が水に溶ける動的な過程の立体復元を行う。 (*1)participating media:ここでは光の進行に「関与する」媒体

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


組織学的画像の自動分析における空間推論のための離散メレオトポロジー
Discrete Mereotopology for Spatial Reasoning in Automated Histological Image Analysis (Abstract)

David A. Randell, University of Birmingham, Birmingham Gabriel Landini, University of Birmingham, Birmingham Antony Galton, University of Exeter, Exeter

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 3, pp. pp. 568-581 , March 2013

Keywords: Delta modulation,Image segmentation,Mathematical model,Cognition,Imaging,Morphology,representation languages,Life and medical sciences,knowledge representation formalisms and methods,morphological,modeling methodologies

離散メレオトポロジー(discrete mereotopology, DM)(*2)は、メレオロジー(mereology)(*3)とトポロジー(topology)を融合させた、離散空間をモデル化するための一次空間論理(first-order spatial logic)である。我々は、DM内で定義される準トポロジー的関数(quasitopological functions)が数学的モーフォロジー(mathematical morphology, MM)内で定義される特定の操作に対応付けられ、科学的な画像処理プログラムに容易に実装できることを示す。これらの関数は、各領域のトポロジー的特徴と、それらの空間的な関係(接触、重なり、そして部分の全体との関係)をモデル化する手段として利用可能である。DMは数学的モーフォロジーが利用される画像処理アプリケーションの表現力を拡張するだけでなく、論理として機能することで実装されたアルゴリズムの正しさを証明する形式基準(formal basis)と、自動推論プログラム(automated reasoning program)による画像分割に対して機械的に理由付け(mechanically reason)を行う計算基準(computational basis)とを提供する。特に、従来の画像処理手法で依然として一般的な、盲目的で画素ベースな画像処理ルーチン(blind pixel-based image processing routines)に対して、DMがモデルベースでアルゴリズム的な文脈(model-based and algorithmic context)を与えることができることを示す。提案手法を組織学の分野に対して適用した多数の事例を示す。この事例には、文化における小区分の分類(segmentation of cells in culture)、重層上皮領域におけるバーゼル細胞層の特定(identifying basel cell layers from stratified epithelia sections)、 そして血液塗抹標本における細胞選別(cell sorting in blood smears)が含まれる。 (*2)mereotopology:"mereology"と"topology"との合成語 (*3)メレオロジー:全体と部分に関する理論

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


人間の動作の時間クラスタリングのための階層的整列クラスタ解析
Hierarchical Aligned Cluster Analysis for Temporal Clustering of Human Motion (Abstract)

Feng Zhou, Carnegie Mellon University, Pittsburgh Fernando De la Torre, Carnegie Mellon University, Pittsburgh Jessica K. Hodgins, Carnegie Mellon University, Pittsburgh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 3, pp. pp. 582-596 , March 2013

Keywords: Kernel,Time series analysis,Humans,Motion segmentation,Clustering algorithms,Heuristic algorithms,Legged locomotion,dynamic programming,Temporal segmentation,time series clustering,time series visualization,human motion analysis,kernel k-means,spectral clustering

人間の動作を適切な基本動作要素(motion primitives)に時間クラスタリング(temporal clustering)することは、人間の動作を理解し、計算モデルを構築する中心的な役割を担う。基本動作要素を発見する試みは、幾つかの課題により構成される。これらは動きの組み合わせの指数的性質(exponential nature)、時間軸における人間の動作のばらつき、そして多関節の動作を表現する複雑さである。我々は基本動作要素を学習する問題を時間クラスタリングの一種とみなし、階層的整列クラスタ解析(hierarchical aligned cluster analysis, HACA)と呼ぶ教師なし階層的ボトムアップ型フレームワークを導出する。HACAは、与えられた多次元の時系列を、各断片がk個のクラスタの一つに属するようにm個のバラバラな断片に分解する。またHACAは、カーネルk平均法(kernel k-means)を一般化された動的時間整列カーネル(generalized dynamic time alignment kernel)と組み合わせ、時系列データをクラスタリングする。更に、本手法は時系列の低次元埋め込み(low-dimensional embedding)を探索する自然なフレームワーク(natural framework)を提供する。HACAは座標降下法(coordinate descent strategy)と動的計画法により効率的に最適化できる。モーションキャプチャと動画データを用いた実験により、HACAは複雑な動作を効果的に分割でき、また可視化するツールとしても利用可能であることを示す。また、我々は蜜蜂のダンスのデータを時間クラスタリングする実験において、HACAと最先端のアルゴリズムとを比較する。HACAのコードはオンラインで公開されている。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


低ランク表現における連続した外れ値の検出による動物体検出
Moving Object Detection by Detecting Contiguous Outliers in the Low-Rank Representation (Abstract)

Xiaowei Zhou, The Hong Kong University of Science and Technology, Hong Kong Can Yang, The Hong Kong University of Science and Technology, Hong Kong Weichuan Yu, The Hong Kong University of Science and Technology, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 3, pp. pp. 597-610 , March 2013

Keywords: Motion segmentation,Object detection,Cameras,Computer vision,Estimation,Computational modeling,Hidden Markov models,motion segmentation,Moving object detection,low-rank modeling,Markov Random Field

物体検出は、映像の様々な応用用途における自動的な映像解析のための基礎である。映像中の物体検出は一般に、物体検出器や背景差分技術により実現される。多くの場合、一つの物体検出器の二値分類器を訓練するためには、手動でラベル付けされた教師データが必要である。一方、背景差分は背景モデルを構築するために、物体が写っていない教師データ系列が必要である。映像解析を自動化するためには、独立した学習フェーズを必要としない物体検出を実現することが重要である。先行研究では動作情報を利用することでこの問題の解決が図られた。しかし、現存する動作ベースの手法は、非剛体運動や背景が動くケースには一般に適用できない。本論文では、上述の問題に対してDECOLOR(DEtecting Contiguous Outliers in the LOw-rank Representation)と呼ぶ統合フレームワークにより対処できることを示す。この構成では、物体検出と背景学習を最適化の一つの過程に組み込むことで、交互最適化アルゴリズム(alternating algorithm)で効率的に解くことができる。シミュレーションデータと実際の映像系列を用いた実験により、DECOLORが最先端のアプローチを凌駕することを示す。また、提案手法は広範の複雑な条件下でも効果的に機能する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


連結ラベル統合によるマルチアトラス分割
Multi-Atlas Segmentation with Joint Label Fusion (Abstract)

Hongzhi Wang, University of Pennsylvania, Philadelphia Jung W. Suh, Heartflow, Inc Sandhitsu R. Das, University of Pennsyvania, Philadelphia John B. Pluta, University of Pennsyvania, Philadelphia Caryne Craige, Temple University, Philadelphia Paul A. Yushkevich, University of Pennsyvania, Philadelphia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 3, pp. pp. 611-623 , March 2013

Keywords: Image segmentation,Educational institutions,Biomedical imaging,Joints,Indexes,Accuracy,Radiology,hippocampal segmentation,Multi-atlas label fusion segmentation,dependence

マルチアトラス分割(multi-atlas segmentation)は、生物医学画像(biomedical image)において、注目物体を自動的にラベル付けする有効なアプローチである。このアプローチでは、アトラス(atlas)と呼ばれる専門家により分割された(expert-segmented)複数のサンプルを対象画像に登録し、変形されたアトラス分割(deformed atlas segmentations)はラベル統合(label fusion)により合成される。既存のラベル統合方法の中では、アトラスと対象間の輝度の類似度に基づいて導出された、空間的に異なる重み分布による重み付き投票が最も有効である。しかし、これらの方法の制約の一つとして、各アトラスについて重みが独立に計算され、異なるアトラスが類似のラベル誤りを生じることを考慮していない点がある。この制約を解消するため、我々はラベル統合問題に対する新しい解決方法を提案する。この方法では、重み付き投票をラベル誤りの期待値を最小化するよう定式化すると共に、アトラスのペア間の依存関係をその二つのアトラスがあるボクセルにおいて誤分割を生じる同時確率として明示的にモデル化する。この確率は、あるアトラスのペアと、各ボクセルの近傍に存在する対象画像との輝度の類似度を用いて近似する。我々は提案手法の有効性を、二つの医学画像の分割課題を通じて検証する。これらは磁気共鳴(magnetic resonance, MR)画像における海馬(hippocampus)の分割と、海馬亜領域(hippocampus subfield)の分割である。両方の課題において、アトラスの重みを独立に設定するラベル統合方法と比較して、安定且つ大幅な改善が得られたことを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Dense-SURFとHausdorff距離を用いた姿勢と表情に依存しない顔特徴点の位置決め
Pose and Expression Independent Facial Landmark Localization Using Dense-SURF and the Hausdorff Distance (Abstract)

Enver Sangineto, Istituto Italiano di Tecnologia, Genova

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 3, pp. pp. 624-638 , March 2013

Keywords: Face,Shape,Three dimensional displays,Vectors,Feature extraction,Detectors,efficient feature extraction,Facial feature detection,head pose estimation,Hausdorff distance

我々は顔の特徴点の位置を自動的に特定するアプローチを提案する。本手法では、姿勢、表情、そして個人のばらつきに対し、三次元形状モデルを局所画像パッチ分類と組み合わせることで対応する。後者は、我々がDU-SURFと呼ぶ、SURF-like特徴を密に抽出する方法で実現する。前者は、Hausdorff距離を多クラスに拡張する方法により、局所的な誤分類や不可視な特徴点に対処する。最終的なシステムは実際の用途において、面外回転(out of plane rotation)や表情の変化、異なる光源下においても顔の特徴点を特定することができる。提案手法に対する大規模な実験から、最先端のシステムに対する優位性を示す。最後に、DU-SURF特徴と最新の特徴とを実験的に比較し、前者が後者に匹敵する分類精度や計算効率を持つことを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


鏡面反射を用いた認識
Recognition Using Specular Highlights (Abstract)

Aaron Netz, University of Haifa, Haifa Margarita Osadchy, University of Haifa, Haifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 3, pp. pp. 639-652 , March 2013

Keywords: Lighting,Estimation,Shape,Solid modeling,Three dimensional displays,Image recognition,Databases,specularities,Object recognition,varying illumination,pose estimation,invariants

我々は、困難な観察条件における鏡面物体(specular object)の姿勢推定とモデルベースの認識を行う、新しいアプローチを提案する。困難な観察条件の例としては、低照度、複雑な背景、大きなハイライト、そして注目物体にかかる影などが挙げられる。この様な困難な条件では、従来の特徴は信頼性が低い。我々は支配的な光源が存在するという前提の下で、既知の物体により発生する鏡面反射は、その物体と三次元モデルとの関連付けを構築するために利用でき、また、物体の仮定した姿勢と識別情報を検証するためにも利用できることを示す。ハイライトを認識に利用する従来手法は、姿勢やシーン依存のキャリブレーション、単純な形状など、制限仮定(limiting assumption)を設けている。提案手法は、自由形状(free-form)の鏡面物体を任意の姿勢と未知の光源方向という条件下でも認識できる。この手法では、入力として物体の画像一枚のみを利用し、物体の識別情報と完全な姿勢を出力する。我々は認識と姿勢推定の精度の網羅的な評価実験を、合成画像や実際の屋内外の画像を用いて行う。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


相対距離比較による再識別
Reidentification by Relative Distance Comparison (Abstract)

Wei-Shi Zheng, Sun Yat-sen University, Guangzhou Shaogang Gong, Queen Mary, University of London, London Tao Xiang, Queen Mary, University of London, London

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 3, pp. pp. 653-668 , March 2013

Keywords: Image color analysis,Vectors,Cameras,Data models,Computer aided instruction,Optimization,Feature extraction,relative distance comparison,Person reidentification,feature quantification,feature selection

異なる位置と時間に撮影された重なりを持たないカメラ視点をまたいで人々を照合することは、人物再識別(people reidentification)と呼ばれる。この課題は、広く分散した空間において長時間に渡り観察された人々の挙動を関連付ける必要があるため、困難であると共に重要である。人物再識別は、観察角度、照明、背景の複雑さ、そして遮蔽のばらつきにより外観が大きく変化するため、基本的に困難な課題である。この課題に対処するため、従来のアプローチの多くは特徴的で信頼性の高い視覚的特徴をモデル化し抽出しようとしている。しかし、人物再識別において、広範な特徴を現実的な観察条件の下で遠距離から定量化する、最適で頑強な類似度尺度を見つけることは、依然として未解決の課題である。本論文において、我々は人物再識別を相対距離比較(relative distance comparison, RDC)学習問題として定式化し、人物画像対の間の最適な類似度尺度を学習する。このアプローチは、全ての特徴を同一に扱わず、また、普遍的に弁別的で信頼性の高い特徴(universally distinctive and reliable feature)の存在を仮定しない。このために、新しい相対距離比較モデルを導入する。このモデルは、誤ったペアよりも相対的に小さい距離を持つ正しいペアの尤度を、弱判別の観点から(in a soft discriminant manner)最大化するように定式化される。更に、大規模学習におけるモデルの取り扱いやすさ(tractability)を維持するために、我々はアンサンブルRDCモデルを追加実装する。公開されている三つのベンチマーク用データセットを用いた網羅的な実験により、提案したRDCモデルは関連する一般的な人物再識別技術を凌駕することを示す。この結果はまた、新しいRDCモデルが他の現存するモデルと比較して外観の変動に対して頑強であり、モデルの過剰適合に陥りにくいことを表す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部分的に重なるナノ粒子の分割、推定、そして分類
Segmentation, Inference and Classification of Partially Overlapping Nanoparticles (Abstract)

Omar Ocegueda, University of Houston, Houston Tianhong Fang, University of Houston, Houston Shishir K. Shah, University of Houston, Houston Ioannis A. Kakadiaris, University of Houston, Houston

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 3, pp. pp. 728-739 , March 2013

Keywords: Face,Three dimensional displays,Vectors,Face recognition,Image segmentation,Geometry,Algorithm design and analysis,face and gesture recognition,Feature evaluation and selection,object recognition,Markov random fields,segmentation,image processing and computer vision,pattern recognition

我々は格子(例えば、画像や三次元メッシュ)の分析のための、頂点の判別情報(discriminative information)に基づくマルコフ確率場モデルを提示する。提案手法は、与えられた分類課題に対して各頂点が判別的であるか否かの確率を推定する計測場(measure field)を規定する。我々のフレームワークの妥当性と汎用性を説明するために、推定した確率を特徴スコア(feature scoring)として用いることで、異なる三つの分類課題においてコンパクトな特徴を定義する。三つの課題とは、三次元顔認識、三次元顔表情認識、そして人種に基づく被写体検索である。これらの課題を通じて、提案手法は他の手法に比類する結果を示す。本研究の主な成果は、最も判別的な情報が格子に沿って滑らかに分布している条件において、特徴選択の新しいフレームワークを実現することにある。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


幾何学的テンプレートマッチングを用いた時系列分析
Time Series Analysis Using Geometric Template Matching (Abstract)

Jordan Frank, McGill University, Quebec Shie Mannor, Technion, Haifa Joelle Pineau, McGill University, Quebec Doina Precup, McGill University, Quebec

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 3, pp. pp. 740-754 , March 2013

Keywords: Time series analysis,Hidden Markov models,Computational modeling,Discrete Fourier transforms,Time measurement,Discrete wavelet transforms,Extraterrestrial measurements,time series classification,Activity recognition,gait recognition,supervised learning,unsupervised learning,wearable computing

我々は一変量の時系列データを分析する新しいフレームワークを提案する。本アプローチの中核は、幾何学的テンプレートマッチング(geometric template matching, GeTeM)と呼ぶ、時系列の二つの断片の類似性を測る万能なアルゴリズムにある。まず、我々はGeTeMを用いてクラスタリングと最近傍分類における類似度を計算する。次に、ラベルなし学習データが与えられる条件下での分類精度を向上させる目的で、この類似度尺度と階層的クラスタリングを用いる半教師付き学習アルゴリズムを提案する。最後に、TDEBOOSTと呼ぶGeTeM識別器を組み合わせたブースティング・フレームワークを提案する。TDEBOOSTは従来のブースティング手法を拡張し、識別器の入力となる特徴を適合化することで学習誤差を改善する新たなステップを追加する提案手法を複数のデータセットを用いて実験的に評価する。このデータセットの例としては、ウェアラブル・センサから得られた加速度データや心電図(eletrocardiograph, ECG)データなどが挙げられる。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


極めて広いベースライン画像のエピポーラ幾何推定のためのホップ拡散モンテカルロ
Hop-Diffusion Monte Carlo for Epipolar Geometry Estimation between Very Wide-Baseline Images (Abstract)

Aveek S. Brahmachari, University of South Florida, Tampa Sudeep Sarkar, University of South Florida, Tampa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 3, pp. pp. 755-762 , March 2013

Keywords: Geometry,Proposals,Blogs,Joints,Estimation,Linear programming,Monte Carlo methods,Joint Feature Distribution (JFD),Epipolar geometry,Markov Chain Monte Carlo (MCMC)

我々はエピポラー幾何推定のためのモンテカルロ手法を提案する。本手法では、推定された対応付けの組の中に多数の外れ値(outlier)が存在する条件下で、最少数の正常値(inlier)の対応付けを効率的に求める。この様な条件は、極めて広いベースライン、顕著な倍率の変動、奥行き方向の回転(rotations in depth)、遮蔽、そして繰り返しパターンが存在する場合に一般的に生じる。提案するモンテカルロ・アルゴリズムは、局所・大域平衡探索(Balanced LOcal and Global Search, BLOGS)を用い、最少数の対応付けの組の中で最良のものを探索する。局所探索は同時特徴分布(Joint Feature Distributions)を用いた拡散過程であり、対応付けの間での依存関係を記録する。大域探索は測光的性質(photometric property)で制御された最小セット空間(minimal set space)のホッピング探索(hopping search)過程である。最大90%の割合で外れ値を含む手動で設定された正解データ(点や画像)に対する計算誤差を求める新たな実験方法を用い、BLOGSが類似手法であるMAPSAC、NAPSAC、そしてBEEMよりも高性能であることを示す。BLOGSの結果は精度の面では他の手法と同等であるが、繰り返し回数が1/10で済む。また、各繰り返しに要する時間は、検証に用いた手法の中ではBLOGSが最短である。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ベクトル潜在空間における形状の表現と位置合わせ:最適化過程への閉形式解の導入
Shape Representation and Registration in Vector Implicit Spaces: Adopting a Closed-Form Solution in the Optimization Process (Abstract)

Hossam E. Abd El Munim, University of Louisville, Louisville Amal A. Farag, University of Louisville, Louisville Aly A. Farag, University of Louisville, Louisville

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 3, pp. pp. 763-768 , March 2013

Keywords: Shape,Vectors,Optimization,Lattices,Lungs,Closed-form solutions,Topology,optimization,Shape representation,shape alignment,distance transform,vector distance function,free form deformations

本論文では、大域的変形と局所的変形の両方を含む形状の位置合わせ(registration)問題を解く新しい手法を提案する。ベクトル距離関数(vector distance function, VDF)を用いて、元形状(source shape)と目的形状(target shape)を表現する。これに基づき先述の問題は、元形状と目的形状との間のVDFを照合するエネルギー最適化過程として定式化する。最小化過程は大域的変形と局所的変形の変形パラメータ推定に帰着する。勾配降下法による最適化(gradient descent optimization)は、元形状と目的形状との間の大域的誤差の最小化により、変倍、回転、そして変位行列の計算を担う。一方で非剛体変形は多数のパラメータを要するため、勾配降下法では多大な計算時間を要する。我々は、局所的変形パラメータを、目的関数の近似により導出された閉形式解を連立一次方程式として用いることで計算することを提案する。一般化された二次元形状データを用いた詳細な実験による検証と比較により、提案手法の頑強性と効果を示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.35, No.4


リファレンスラベルを用いずに複数の異種エキスパートによるラベル情報を融合するための、大域可変且つ局所不変なモデル
A Globally-Variant Locally-Constant Model for Fusion of Labels from Multiple Diverse Experts without Using Reference Labels

Kartik Audhkhasi, University of Southern California, Los Angeles Shrikanth (Shri) Narayanan, University of Southern California, Los Angeles

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 769-783 , April 2013

Keywords: Reliability,Speech,Humans,Labeling,Data models,Training,Analytical models,emotion recognition,Multiple diverse experts,label fusion,label reliability,expectation-maximization algorithm,human annotation

これまでの研究によって、複数のエキスパート(これには人間や機械的な識別器の両方を含む)によるカテゴリラベルの融合により、識別器全体の精度および汎化能力を向上させることができることが示されている。単純多数決(simple plurality)はこの情報融合でよく用いられる手法である。しかしエキスパート間で信頼性の異なる可能性があり、またデータセット全体にわたる整合性が無いかもしれない全てのエキスパートからのラベル情報に同じ重みを与えてしまう欠点がある。リファレンスラベル情報なしでエキスパートの信頼性を推定することは困難な課題である。これまでの殆どの手法は、全データ(特徴)空間においてエキスパートの信頼性が均質であると仮定してモデル化することで、この問題に対応していた。本稿では実世界データを扱うための配慮を施したモデルを紹介する。このモデルでは、エキスパートの信頼性は特徴空間全域にわたり可変だが、同質インスタンスから得られる複数の局所クラスタにおいては不変である。このモデルはEMアルゴリズム(Expectation-Maximization:期待値最大化)を用いることで、識別器とエキスパート信頼性パラメタを、リファレンスラベルの知識を前提としないで同時に学習する。UCI機械学習リポジトリ及び2つの感情的なスピーチ識別データセットのデータを用いた合成データにおける識別実験により、提案モデルの利点が示される。Jensen-Shannon情報量に基づくメトリクスにより、エキスパートの信頼性が特徴空間で大きく変化するようなデータセットにおいて、提案モデルがより大きな利点を持つことを実験により示す。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高次元密度推定に基づく自動虹彩隠蔽推定法
An Automatic Iris Occlusion Estimation Method Based on High-Dimensional Density Estimation

Yung-Hui Li, Feng Chia University, Taichung City Marios Savvides, Carnegie Mellon University, Pittsburgh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 784-796 , April 2013

Keywords: Iris recognition,Iris,Feature extraction,Training,Eyelashes,Estimation,simulated annealing,Gaussian mixture models,iris mask,iris recognition,iris occlusion estimation,biometrics recognition

虹彩マスクは虹彩認識において重要な役割を果たしている。このマスクは、虹彩テクスチャマップのどの部分が有効か、どの部分が隠蔽されているか、もしくは、まつ毛や瞼、メガネのフレームや鏡面反射などのノイズコンテンツによる悪影響がどの部分にあるのかを示すものである。虹彩マスクの精度が低い場合、最良の認識アルゴリズムが用いられたとしても虹彩認識システムの性能が劇的に低下する。従来の手法では虹彩画像から虹彩マスクを推定するためにルールベースのアルゴリズムが用いられてきたが、これらの手法で生成される虹彩マスクの精度には疑問符が付く。本稿では、FigueredoおよびJainによるガウシアンミクスチャモデル(FJ-GMMs)を用いて、虹彩画像の有効及び無効領域両方の確率分布をモデル化する。また利用可能な特徴についても探索した結果、ガボールフィルターバンク(Gabor Filter Bank: GFB)が、本目的に対して最も高い識別能を与えることが判った。最後にシミュレーテッドアニーリング法(Simulated Annealing: SA)を用いてGFBのパラメタの最適化を行うことで、認識精度を最大化した。我々の実験結果は提案アルゴリズムにより生成されたマスクによって、ICE2及びUBIRISデータセット両方における認識率が向上することを示している。これにより虹彩隠蔽推定に対する我々の提案手法の効果と重要性が確認された。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ニュース画像からの自動字幕生成
Automatic Caption Generation for News Images

Yansong Feng, University of Edinburgh, Edinburgh Mirella Lapata, University of Edinburgh, Edinburgh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 797-812 , April 2013

Keywords: Visualization,Humans,Databases,Vocabulary,Probabilistic logic,Data models,Noise measurement,topic models,Caption generation,image annotation,summarization

本稿では、多くの画像関連のアプリケーションで重要な、画像からの自動字幕生成を取り扱う。本稿で取り扱う事例には、ビデオおよび画像検索における応用だけではなく、視覚障害者が画像・映像情報にアクセスするための助けとなるツールの開発も含んでいる。我々のアプローチはウェブ上にある大量の写真を利用する。また、それらの写真の多くに名前をつけられていること、および写真の主題と関係のある文書と同所にあることも利用している。我々のモデルは2段構成になっており、ニュース記事データベースから、主題、記事中にある写真およびその注釈を学習する。コンテンツ選択により、画像、および同所にある文書の主題を同定し、表面実現(surface realization)により選択されたコンテンツの可読化方法を決定する。確率的画像アノテーションモデルによりコンテンツ選択を近似し、これにより画像の推奨キーワードを得る。このモデルは、画像とそのテキストによる記述が、共有された潜在変数(トピック)の組みにより生成され、また弱度ラベル付きデータセットを用いて訓練されることを仮定している。このデータセットでは主題と関連付けられたニュース文書を画像ラベルとして取り扱う。最近の要約技術に関する研究からアイディアを得て、抽出的及び要約的表面実現モデル(surface realization model)を提案する。我々の実験結果は、記述の創造性を担保しながらも、提案システムが画像の特定のコンテンツ、及び関連付けられたニュース記事に対して適切なキャプションを生成できることを示している。我々の要約的モデルの出力は、手書きのキャプションに伍する性能を示し、抽出的手法を多くの場合上回る能力を持っている。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


固有値最小化による超広角魚眼レンズカメラのキャリブレーション
Calibration of Ultrawide Fisheye Lens Cameras by Eigenvalue Minimization

Kenichi Kanatani, Okayama University, Okayama

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 813-822 , April 2013

Keywords: Eigenvalues and eigenfunctions,Lenses,Calibration,Vectors,Cameras,Minimization,Parallel processing,perspective rectification,Fisheye lens,camera calibration,eigenvalue minimization,perturbation theorem

超広角魚眼レンズカメラの新しいキャリブレーション技術を紹介する。この技術では、同一線上の点が変換後も同一線上に乗るように、また平行線は平行線、垂直線は垂直線になるように制約を課している。線フィッティングが三次元における固有値問題に縮退できることを利用し、厳格な摂動解析(perturbation analysis)を用いて実用的なキャリブレーション手順を生成する。我々の実験により、同一線及び平行線拘束のみが適用される場合にはスプリアス解(偽解)が存在することが示される。参照パターンやカメラ位置の尺度に関する情報を必要としないこと、及び仮想グリッド生成のためにストライプパターンを表示し、グリッド点抽出処理を不要としていることなど、我々の技術は多くの好適な性質を備えている。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


足どり認識(footstep recognition)のための時空間情報の比較解析及び融合
Comparative Analysis and Fusion of Spatiotemporal Information for Footstep Recognition

Ruben Vera-Rodriguez, Universidad Autonoma de Madrid, Madrid and Swansea University, Swansea John S.D. Mason, Swansea University, Swansea Julian Fierrez, Universidad Autonoma de Madrid, Madrid Javier Ortega-Garcia, Universidad Autonoma de Madrid, Madrid

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 823-834 , April 2013

Keywords: Databases,Feature extraction,Legged locomotion,Sensor fusion,Sensor phenomena and characterization,Intelligent sensors,pattern recognition,Biometrics,footstep recognition,gait recognition,pressure analysis

足どり認識はバイオメトリクス分野では比較的新しい技術であり、フロア埋込センサーから得られた情報による歩行特徴を用いて人物を判別することを目的としている。本稿では人物認識のための足跡信号空の時空間情報の初の比較評価について報告する。120人以上による2万の有効な足どり信号を持つ、これまでの最大の足跡データベースを用いて実験を行った。実験結果は時間的アプローチと空間的アプローチがよく似た性能(実験設定に依存した5ないし15%のエネルギー変換効率(EER: Energy Efficiency Ratio))を持つこと、また、これらの組み合わせにより顕著な効率向上(2.5%ないし10%のEER)がみられることを示している。この評価手順はリファレンスモデルに用いられるデータ量にフォーカスしたものであり、所謂スマートホームやセキュリティアクセスシナリオなどの様々な潜在的な応用用途の条件をシミュレートするのに役立つ。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


リアルなビデオにおける人間とオブジェクトのインタラクションの明示的モデリング
Explicit Modeling of Human-Object Interactions in Realistic Videos

Alessandro Prest, ETH Zurich, Zurich and INRIA Grenoble, Grenoble Vittorio Ferrari, University of Edinburgh, Edinburgh Cordelia Schmid, INRIA Grenoble, Grenoble

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 835-848 , April 2013

Keywords: Humans,Videos,Detectors,Training,Target tracking,Feature extraction,video analysis,Action recognition,human-object interaction

本稿で我々はリアルなビデオにおける人間とオブジェクトとのインタラクションとしての人間のアクションの学習アプローチを紹介する。これまでの研究では、画像のグラディエントやオプティカルフローなどの低次元特徴を用いて人間のアクションを表現することが多かったが、我々のアプローチでは空間を明示的に限定することで、人物とオブジェクトの両方を追跡する。またこのアプローチでは、人物の位置に対するオブジェクトの軌跡としてアクションを表現する。我々のアプローチは最新の人物検出法[32]、オブジェクト検出法[10]、及び物体追跡法[39]を利用している。これにより、リアルなビデオにおける人間とオブジェクトとのインタラクションのモデル化と位置決に充分な品質で、人物及びオブジェクト追跡ができることを示す。我々が提案する人間とオブジェクトのインタラクションの特徴は、人間に対するオブジェクトの相対的な軌跡についての情報を取り込むものである。Coffee and Cigarettesデータセット[25]、ビデオデータセット[19]、及びRochester Daily Activities dataset [29]を用いた実験により、1)我々の明示的な人間?オブジェクトモデルが、アクション認識に対して情報量の高い手掛かりであること、2)提案モデルは3D-HOGなどの人物追跡の従来の低次元記述子と相補的であることが示される。我々の 人間?オブジェクトインタラクション特徴を3D-HOGと組み合わせることで、これら各個の性能及び他の最新の手法[23][29]をうわまわる性能を持つことが示される。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高次元特異値分解を用いた画像ノイズ低減
Image Denoising Using the Higher Order Singular Value Decomposition

Ajit Rajwade, University of Florida, Gainesville Anand Rangarajan, University of Florida, Gainesville Arunava Banerjee, University of Florida, Gainesville

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 849-862 , April 2013

Keywords: Noise measurement,Transforms,Noise reduction,Image denoising,PSNR,Singular value decomposition,patch similarity,Image denoising,singular value decomposition (SVD),higher order singular value decomposition (HOSVD),coefficient thresholding,learning orthonormal bases

本稿では極めて簡明且つエレガントな、画像ノイズ低減のための高次特異値分解(Higher Order Singular Value Decomposition: HOSVD)を利用したパッチに基づく機械学習法を提案する。この手法では、ノイズのある画像からの類似したパッチを単純にグループ化し(この類似性は統計的な指標により定義される)、3次元スタックに蓄積し、そしてこのスタックのHOSVD係数を計算する。更にこの係数を固定値で閾値処理し、この結果を逆HOSVD変換することで最終結果としての出力画像を得る。提案手法に必要なパラメタ全てを合理的な方法で決定し、ノイズモデルに関連付けて管理する。画像のノイズ低減のために適した変換としてHOSVDを利用したモティベーションについても議論する。グレースケール画像とカラー画像について、提案手法の卓越した性能を例証する。カラー画像については我々の手法は、他の最新の手法に伍する性能を示し、ノイズレベルが相当高い画像については他の手法を上回る性能を持つ。最適パッチサイズ選択のための指標と残差画像(ノイズ低減後画像)からのノイズ変数の推定についても紹介する。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像に基づく頑健なトラッキングのためのコンパクトな三次元離散コサイン変換表現の漸増的学習 
Incremental Learning of 3D-DCT Compact Representations for Robust Visual Tracking

Xi Li, University of Adelaide, Adelaide Anthony Dick, University of Adelaide, Adelaide Chunhua Shen, University of Adelaide, Adelaide Anton van den Hengel, University of Adelaide, Adelaide Hanzi Wang, Xiamen University, Xiamen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 863-881 , April 2013

Keywords: Discrete cosine transforms,Algorithm design and analysis,Visualization,Robustness,Loss measurement,Image reconstruction,Adaptation models,template matching,Visual tracking,appearance model,compact representation,discrete cosine transform (DCT),incremental learning

画像に基づくトラッキングでは、ビデオ映像で良くある照明、姿勢、その他の要因の変化に対して頑健な、オブジェクトの外観モデルが必要とされることが多い。近年の多くのトラッカーは、以前のフレームの外観サンプルを用いて、現フレームで利用するオブジェクト外観モデルの基本を作る。このアプローチには以下の限界がある。1)基本的にデータ駆動型の構造になっているためアルゴリズム自体が失敗しやすい、2)困難な画像では以前のフレームからベースとなるモデルを頑健に導出することが難しい。本稿では三次元コサイン変換(3D-DCT)を用いてオブジェクトの外観モデルを構成する。この三次元離散コサイン変換は、三次元信号のサイズにより決定されるコサイン基底関数の組みに基づいており、それゆえ入力ビデオ信号からは独立になっている。更にこの3D-DCTにより、サンプル同士の外観が類似する場合に高周波の係数が疎になるような、コンパクトなエネルギースペクトラムが得られる。これらの高周波係数を捨てることで、3D-DCTに基づくオブジェクト表現と信号再構成に基づく類似性尺度(これは信号再構成による情報欠落を反映する)を同時に得ることができる。このオブジェクト表現を効率的に更新するために、漸増的3D-DCTアルゴリズムを提案する。このアルゴリズムは3D-DCTを、入力ビデオデータに対する連続な二次元離散コサイン変換(2D-DCT)及び一次元離散コサイン変換(1D-DCT)に分解する。結果としてこの漸増的3D-DCTアルゴリズムでは、新たに追加されたフレームの2D-DCTと、三次元目に対する1D-DCTの計算のみが必要であり、この特性ゆえに計算量を著しく低減できる。漸増的3D-DCTアルゴリズムに基づいて、前景オブジェクトに属するテストサンプルの尤度を評価するための判別的指標を設計する。経時オブジェクト状態推測のために、この指標をパーティクルフィルタのフレームワークに組み込む。実験結果により、本稿で提案するトラッカーの効果と頑健性が示される。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単眼画像からのシーン理解:複数オブジェクトの交通シーンの理解
Monocular Visual Scene Understanding: Understanding Multi-Object Traffic Scenes

Christian Wojek, Max Planck Institute for Informatics, Saarbrucken Stefan Walk, ETH Zurich, Zurich Stefan Roth, Technische Universitat Darmstadt, Darmstadt Konrad Schindler, ETH Zurich, Zurich Bernt Schiele, Max Planck Institute for Informatics, Saarbrucken

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 882-897 , April 2013

Keywords: Detectors,Cameras,Solid modeling,Cognition,Computational modeling,Hidden Markov models,Object detection,MCMC,Scene understanding,tracking,scene tracklets,tracking-by-detection

近年の、オブジェクト検出、コンテキストモデリング、及びトラッキングなどの技術の発展により、シーン理解はコンピュータビジョン研究において再度注目を集める分野となった。本稿では新しい確率論的な三次元シーンモデルを紹介する。このモデルは最新のオブジェクト検出、オブジェクトトラッキング、及びシーンラベリングを、幾何的三次元推測技術に統合したものである。我々のモデルは、オブジェクト間の隠蔽、物理的排他性、幾何的特性などの複雑なインタラクションを表現する能力を具備する。このモデルを用いた推測により、単眼画像系列のみを入力情報として、モバイル型の計測機からのデータに基づいて三次元シーンコンテキストの復元と、複数カテゴリの三次元複数オブジェクトのトラッキングを同時に行うことができる。他の多くのアプローチとは対照的に、我々のシステムは明示的な隠蔽推論を行い、それゆえ長期間にわたり部分的な隠蔽を受けるオブジェクトもトラッキングすることができるし、更には、画像系列のいずれの時点においても全身が観測されることのないようなオブジェクトですらトラッキングできる。これに加え、複数のフレームにわたり収集された根拠情報の同時シーントラックレット(joint scene tracklet)モデルにより、性能が顕著に向上することが示される。様々なオンボード画像系列(機器、車体などに備え付けられたカメラからの画像系列)を用いた試験により、本アプローチを評価する。まず提案システムが、三次元複数人物トラッキングの従来技術を顕著に上回る性能を持つことを示す。更に困難な画像データセットを用いた通常車両及びトラックのマルチクラス三次元トラッキングにおいても、これと同程度の性能向上がみられる。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


学習に基づく検出応答の階層的関連付けによる複数ターゲットのトラッキング
Multiple Target Tracking by Learning-Based Hierarchical Association of Detection Responses

Chang Huang, NEC Research Laboratories, Cupertino Yuan Li, Google, Inc. Ramakant Nevatia, University of Southern California, Los Angeles

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 898-910 , April 2013

Keywords: Target tracking,Trajectory,Computational modeling,Joining processes,Object detection,Image color analysis,AdaBoost,Multiple target tracking,hierarchical association,bag ranking

検出応答を長期間の映像トラック小片(これをtrackletと呼ぶ)に前進的にリンクさせることで、単一カメラからの画像に基づいて複数ターゲットのトラッキングを行う階層的関連付けアプローチを提案する。フレームごとの検出結果が与えられた場合、連続フレームの間の非常に類似した検出応答のみをリンク付けするような、これまでの2段閾値処理法により、最小限の同定スイッチング(identity switches)を持つ初期trackletを生成する。重度に断片化した階層の各レベルにおけるこれらのtrackletを、事後確率最大化問題(Maximum A Posteriori: MAP)として定式化し、これにより初期化、終了判定、及びtrackletの変異を考慮し、更にこれらの項目の可能性を、Hungarianアルゴリズムにより効率的に計算できる偽陽性指標としても考える。2つのtrackletが同一のターゲットに属する尤度尺度であるTracklet類似性モデル(tracklet affinity model)は、様々な特徴についての自動学習された弱識別器ノンパラメトリックモデルの線形結合であり、これはパラメトリックモデルのヒューリスティックな選択とその手動調整に依存するような従来の手法とは一線を画するものである。この目的のために新しいバッグランキング法を開発し、ブースティングアルゴリズムにより必要不可欠なトラック小片アフィニティモデルを訓練する。このバッグランキング法ではソフトマックス関数を利用し、従来のインスタンスランキング手法で用いられてきた過剰な目的関数を緩和する。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


構造化された予測における、分解不可能な損失関数の最適化
Optimizing Nondecomposable Loss Functions in Structured Prediction (Abstract)

Mani Ranjbar, Simon Fraser University, Burnaby Tian Lan, Simon Fraser University, Burnaby Yang Wang, University of Illinois at Urbana-Champaign, Urbana Steven N. Robinovitch, Simon Fraser University, Burnaby Ze-Nian Li, Simon Fraser University, Burnaby Greg Mori, Simon Fraser University, Burnaby

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 911-924 , April 2013

Keywords: Loss measurement,Piecewise linear approximation,Labeling,Training,Vectors,Prediction algorithms,Optimization,structural SVM,Optimization,large-margin

分解不可能な性能尺度を持つ構造化された予測アルゴリズムを開発する。このアルゴリズムはマルコフ確率場(Markov Random Fields: MRF)のパラメタを学習し、多変量性能尺度に対して適用可能である。$(F_{¥beta })$スコア(自然言語処理)、intersection over union(オブジェクトカテゴリ分割)、kにおけるPrecision/Recall(検索エンジン)、およびROC領域(二値識別)などを含むいくつかの例を示す。対の線形関数を用いて損失関数を近似することにより、この最適化問題に取り組む。このような損失を考慮した推測は二次計画問題(Quadratic Program: QP)であり、これをLP弛緩法を用いて解く。本稿ではこのアプローチを2つのタスクに対して適用する。一つはクラス特注のオブジェクト分割、他方はビデオからの人間のアクション検索である。単純な損失関数もしくは単純なスコア関数を持つベースラインアプローチに比べ、提案手法では顕著な性能向上がみられる。この試験にはPASCAL VOCおよびH3Dセグメンテーションデータセットおよびnursing home action認識データセットを用いている。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


低品質指紋画像の強調のための方位場推定
Orientation Field Estimation for Latent Fingerprint Enhancement

Jianjiang Feng, Tshinghua University, Beijing Jie Zhou, Tsinghua University, Beijing Anil K. Jain, Michigan State University, East Lansing and Korea University, Anamdong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 925-940 , April 2013

Keywords: Estimation,Dictionaries,Feature extraction,Noise measurement,Smoothing methods,Noise,Mathematical model,spelling correction,Fingerprint matching,fingerprint enhancement,latent fingerprint,orientation field,dictionary

法執行機関にとって低品質指紋の同定は犯罪者やテロリストを逮捕するための最重要課題の一つである。直接指をスキャンして指紋を採取する場合や、インクを使った指紋捺印などの場合と比べ、指紋画像品質は遥かに低く、また複雑な背景領域や不明瞭なリッジ構造、更には指紋同士が重複するようなパターンなどの指紋画質低下要因もある。このような低画質指紋画像を画像処理して認識するためには、頑健な方位場推定アルゴリズムが必要不可欠である。しかし従来の方位場推定アルゴリズムは、直接指をスキャンする場合やインクによる指紋捺印の場合などでは充分な性能が得られるが、低品質指紋画像に対しては充分な性能を持たない。従来のアルゴリズムの主な制約は、これらが指紋画像のリッジ構造に対する事前知識を利用していないことにあると考えられる。自然言語処理のスペル修正技術からヒントを得て、指紋構造の事前知識に基づいた、新しい指紋方位場推定アルゴリズムを提案する。本アルゴリズムでは、リファレンス方位パッチの辞書を用いて指紋についての事前知識を表現する。このパッチは真の方位場の組みと、隣接する方位パッチの間の一致についての制約条件を用いて生成される。低品質指紋画像のための方位場推定は、ループ型確信度伝播により解かれるエネルギー最小化問題として定式化される。NIST SD27低品質指紋画像データベース及び重複のある低品質指紋画像データベースを用いた実験結果により、本稿で提案する方位場推定アルゴリズムの優位性が示される。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


適応的層対視覚モデルを用いた頑健な画像トラッキング
Robust Visual Tracking Using an Adaptive Coupled-Layer Visual Model

Luka Čehovin, University of Ljubljana, Ljubljana Matej Kristan, University of Ljubljana, Ljubljana Aleš Leonardis, University of Birmingham, Birmingham and University of Ljubljana, Ljubljana

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 941-953 , April 2013

Keywords: Visualization,Target tracking,Adaptation models,Robustness,Computational modeling,Shape,tracking,Image processing and computer vision

本稿では、外観が高速に且つ著しく変化するオブジェクトを追跡する課題を取り扱う。2つの層を交差させることによりターゲットの大域的及び局所的な外観情報を組み合わせることができる、新たな層対視覚モデルを提案する。本モデルにおける局所層はターゲットの外観の変化の幾何的制約になる、局所パッチの組みである。局所パッチの追加と削除によって構造を更新することで、この層をターゲットの幾何的変形に対して確率的に適応させる。これらのパッチの追加は、色、形状、明確な局所運動などのターゲットの大域的外観特性を確率的にモデル化している大域層によって拘束をうける。局所層の安定パッチを利用することで前記の大域的外観特徴もトラッキング中に更新される。大域層の適応と局所層の適応の対による拘束パラダイムにより、顕著な外観の変化がある場合でも、より頑健なトラッキングを可能にしている。困難なビデオ画像系列を用いた実験により、我々の追跡器を11種類の他の最新の追跡器と比較した結果、多くのケースにおいて我々の追跡器が他を上回る性能、つまりより高い精度とより低い誤り率を持つことが示された。更にパラメタ解析により、パラメタ値の広い範囲において我々の追跡器が安定であることも示された。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部分的なオーバーラップとノイズを含む三次元奥行きデータのスペクトル6自由度位置決め
Spectral 6DOF Registration of Noisy 3D Range Data with Partial Overlap

Heiko Bülow, Jacobs University, Bremen Andreas Birk, Jacobs University, Bremen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 954-969 , April 2013

Keywords: Frequency conversion,Robustness,Correlation,Robots,Interference,Noise measurement,Nonhomogeneous media,phase matching,3D scan matching,spectral registration

本稿では、部分オーバーラップとノイズを含む三次元データ6自由度(Degree Of Freedom: DOF)の位置決め法としての、多層再標本化によるスペクトル位置決め(Spectral Registration with Multilayer Resampling: SRMR)を紹介する。このアルゴリズムは、量子化された三次元奥行き画像に対する三次元高速フーリエスペクトルの再標本化過程により、三次元回転を三次元変形から独立させる手法に基づいている。その上で、位相限定相関法(Phase Only Matched Filtering: POMF)によるスペクトラル位置決めを用いて6自由度全ての位置決めを行う。SRMRにおける球面情報からのオイラー角の高速且つ頑健な位置決めには、2つの主な観点がある。まず位相合わせについては常に利用される。第二に、離散デカルト座標系グリッドにおけるFFTに基づいて、球面層のみではなく、全ての層が単一のステップで処理される。インターフェースとオーバーラップを含む困難なデータセットを用いた実験を行った。この実験には、人工的に変換されたデータとStanford Bunnyデータセットのスキャン、ハイエンドの三次元レーザレンジファインダー(Laser Range Finder: LRF)スキャンによる都市中心部のスキャン、及び災害復興シナリオにおける低コストのアクチュエータ付きLRFからの奥行きデータ、それぞれにおける高速且つ頑健性の高い位置決めを含む。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


サポートベクトル形状:識別器に基づいた形状表現
Support Vector Shape: A Classifier-Based Shape Representation

Hien Van Nguyen, University of Maryland, College Park Fatih Porikli, Mitsubishi Electric Research Labs, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 970-982 , April 2013

Keywords: Shape,Support vector machines,Kernel,Training,Noise,Robustness,Vectors,support vector machines,Shape matching,2D and 3D representation

2次元及び3次元オブジェクト形状のための、サポートベクトルマシン(Support Vector Machine: SVM)理論に基づいた新しい暗示的な表現を紹介する。各オブジェクト形状はRadial Basis Function(RBF)カーネルのSVMを用いて、内部形状点がより高い値を持つように学習された解析的決定関数により表現される。これにより多様体の利点を持つサポートベクトル形状(Support Vector Shape: SVS)が実現される。まずこの表現ではサポートベクトルにより決定される特徴点のスパース部分集合を用いることで、データに内在するノイズ、断片化、及び他のノイズ的成分に対する弁別性能を有意に向上させる。次にRBFカーネルを利用することで、スケール、回転及び併進変換に対して不変な特徴が得られ、これにより形状複雑性に関係なく、オブジェクトの形状を正確に表現することができるようになる。最後に前述の決定関数により信頼性の高い特徴点を選択する。これらの特徴は、従来手法のようなエッジではなく、整合性の高い決定関数により計算された勾配を用いて記述される。我々が行った実験は有望な結果を示している。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


拡散磁気共鳴映像法(Diffusion MRI)における接続性のマッピングのための三次元推計学的補完
3D Stochastic Completion Fields for Mapping Connectivity in Diffusion MRI

Parya MomayyezSiahkal, McGill University, Montreal Kaleem Siddiqi, McGill University, Montreal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 983-995 , April 2013

Keywords: Mathematical model,Stochastic processes,Magnetic resonance imaging,Equations,Discrete wavelet transforms,Solid modeling,Probabilistic logic,spherical harmonics,3D directional random walk,Fokker-Planck equation,completion fields,diffusion MRI,probabilistic connectivity

WilliamsとJacobsにより導入された二次元推計学的補完場アルゴリズムでは、指向性ランダムウォークを用いて平面における補完曲線の事前確率をモデル化する。この構成は画像におけるエッジ片同士の尤もらしい補完曲線の形状を計算することに用いることができ、コンピュータビジョンに対して強烈なインパクトを与えた。これらの既存研究からアイディアを得て、このアルゴリズムを3次元に拡張する。本研究のアルゴリズムは、球面調和基底を用いることで回転不変性を確保したFokker-Planck方程式の計算解を実現し、これによりモデルに内在する確率密度関数の発展を記述する。これにより三次元補完パターンの計算に対して理にかなった方法を提供し、三次元方位データのための接続性尺度を導出できる。これらは三次元トラッキング、モーションキャプチャ?、及び医療画像分野などで特に近年注目されている。提案手法の利用性を拡散磁気共鳴映像法の特殊例において検証し、物理的ダミー及び、実際の生体内での、人間の脳の高角度解像度拡散画像における合成データに対する接続性マップを導出した。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


周波数領域のスケール空間解析に基づいた画像顕在性
Visual Saliency Based on Scale-Space Analysis in the Frequency Domain

Jian Li, National University of Defense Technology, Changsha Martin D. Levine, McGill University, Montreal Xiangjing An, National University of Defense Technology, Changsha Xin Xu, National University of Defense Technology, Changsha Hangen He, National University of Defense Technology, Changsha

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 996-1010 , April 2013

Keywords: Strontium,Visualization,Frequency domain analysis,Fourier transforms,Kernel,Computational modeling,Convolution,scale space analysis,Visual attention,saliency,hypercomplex Fourier transform,eye tracking

本稿では3つの視点から画像顕在性について検討する。まず、周波数解析問題としての顕在性検出を考える。次に非顕在性のコンセプトを利用することでこの問題を解く。第三に、様々なサイズでの顕在領域の同時検出を検討する。本稿では画像顕在性を検出するための新しいボトムアップパラダイムを提案する。このパラダイムは自然画像の振幅スペクトラムのスケール空間解析を行うことに特徴がある。画像振幅スペクトラムと適切なスケールのローパスガウシアンカーネルとの畳みこみの結果が、画像顕在性検出器のそれと等価であることを示す。元画像の位相情報と振幅スペクトラムを用いることで二次元信号を再構成し、これにより前記の顕在性マップを得る。このスペクトラムは顕在性マップのエントロピーを最小にするように選択されたスケールにおいてフィルタリングされたものである。多元フーリエ変換により周波数領域における解析を行う。利用可能なデータベースを用いて提案モデルが人間の注視位置データ(fixation data)を予測することができることを示す。新しい画像データベースの提案と、これを用いることで顕在性マップが小さい顕在領域と大きい顕在領域の両方を検出できること、また散乱画像中に繰り返し現れる注意を散乱させる要因を低減させることができることを示す。これらに加え、人間の被験者が注意を与えるような領域を顕在領域として予測することができることを示す。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


突発運動に対するWang-Landauモンテカルロに基づくトラッキング法
Wang-Landau Monte Carlo-Based Tracking Methods for Abrupt Motions

Junseok Kwon, Seoul National University, Seoul Kyoung Mu Lee, Seoul National University, Seoul

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. pp. 1011-1024 , April 2013

Keywords: Target tracking,Proposals,Monte Carlo methods,Sampling methods,Markov processes,Robustness,Markov Chain Monte Carlo,Object tracking,abrupt motion,Wang-Landau method,density-of-states,N-fold way

本稿で我々は、突発運動を効率的に扱うことができるWang-Landauモンテカルロ(WLMC)サンプリング法に基づく新しいトラッキングアルゴリズムを提案する。突発運動は、従来のトラッカーが前提とする運動連続性(motion smoothness)に関する制約条件を破るため、これらの方法では上手くトラッキングすることができない。この問題を取り扱うために、Wang-Landauサンプリング法を導入し、これをマルコフ連鎖モンテカルロ(Markov Chain Monte Carlo: MCMC)に基づくトラッキングフレームワークに統合する。Wang-Landauサンプリング法により推定された新しい状態密度項(density-of-states term)を、MCMCの受容率式に組み込むことで、我々のWLMCに基づくトラッキング法は前記の運動連続性に関する制約条件を緩和し、突発運動も頑健にトラッキングすることができる。このような緩和にもかかわらず、前記の受容率式の周辺尤度項により滑らかな運動に対するトラッキング精度を保っている。次に本手法を高次元状態空間においても高い拡張性を持つように改良した。これによりターゲットの位置の突発的な変化だけでなく、ターゲットのスケールの突発的な変化に対しても対応できるようになる。この目的のため、我々の手法をN重アルゴリズムと組み合わせることで修正し、N重Wang-Landau(N-Fold Wang-Landau: NFWL)に基づくトラッキング法とした。このN重アルゴリズムにより、時間効率よく、状態密度をより少ない数のサンプルから推定することができ、また、ターゲットの位置とスケールが大きく変化する場合でも高精度且つ頑健にトラッキングすることができる。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.35, No.5


複数のタスクに共通する予測構造体を学習するための凸最適化
A Convex Formulation for Learning a Shared Predictive Structure from Multiple Tasks (Abstract)

Jianhui Chen, Arizona State University, Tempe Lei Tang, Arizona State University, Tempe Jun Liu, Arizona State University, Tempe Jieping Ye, Arizona State University, Tempe

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1025-1038 , May 2013

Keywords: Optimization,Algorithm design and analysis,Vectors,Fasteners,Complexity theory,Prediction algorithms,Acceleration,accelerated projected gradient,Multitask learning,shared predictive structure,alternating structure optimization

本論文では、関連する複数のタスクから共通する構造を抽出して学習することで、汎化性能を向上する問題を取り上げる。共通する特徴表現を用いて全てのタスクを組み合わせる交互構造最適化(Alternating Structure Optimization, ASO)アルゴリズムは、様々なマルチタスク学習問題において成功を収めている。しかし、ASOは非凸(nonconvex)であることから、交互アルゴリズム(alternating algorithm)は局所解しか見つけることができない。我々はまず、新しい正則化項に基づき、マルチタスク学習おいてより高性能なiASO(improved ASO)の定式化を行う。次に、非凸であるiASOを緩和凸(relaxed convex)であるrASOに変換する。興味深いことに、我々の理論的解析から、rASOは特定の条件下において、非凸な片割れであるiASOの大域最適解を求めることができることが明らかになる。rASOは半正定値計画問題(Semidifinite Program, SDP)として等価に再定式化できるが、SDPは大規模なデータセットへの拡張が困難である。我々はrASOの大域最適解を求めるために、ブロック座標降下法(Block Coordinate Descent, BCD)と高速射影勾配法(Accelerated Projected Gradient, APG)アルゴリズムとを個別に導入することを提案する。また、我々はBCDとAGPの部分問題を解くための効率的なアルゴリズムを考案する。Yahooのウェブページのデータセットとショウジョウバエの遺伝子発現パターン画像を用いた実験により、提案アルゴリズムの効果と効率性が示されると共に、我々の理論的解析の正当性を確認する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


深度カメラを用いた3次元形状測定アルゴリズム
Algorithms for 3D Shape Scanning with a Depth Camera (Abstract)

Yan Cui, Augmented Vision, DFKI, Kaiserslautern Sebastian Schuon, Max-Planck-Institut Informatik, Saarland Sebastian Thrun, Stanford University, Palo Alto Didier Stricker, Augmented Vision, DFKI, Kaiserslautern Christian Theobalt, Max-Planck-Institut Informatik, Saarbruecken

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1039-1050 , May 2013

Keywords: Cameras,Image resolution,Shape,Image reconstruction,Noise,Solid modeling,Systematics,Kinect,Superresolution,global alignment,rigid transformation,nonrigid transformation,3D scanning,time-of-flight

ToF(Time-of-Flight)カメラを用いて物体の周囲から取得された深度情報を連結することで、3次元物体計測を行う手法を説明する。これらのToFカメラはビデオレートで深度情報を計測することができる。また、比較的単純な技術であるため、大量生産によって安価に製造することができる。我々が提案する簡便で安価な計測ソリューションは、この様なセンサを用いることで、3次元計測技術を一般ユーザにも手の届くものにできる。我々が直面するアルゴリズム上の課題は、センサごとのランダム雑音が大きく、無視でない偏りが存在することである。本論文において我々は、この様な低品質のデータしか得られないセンサを用いても、十分な品質の三次元計測結果を得られる、驚くべき結果を示す。現在のフィルタ処理や深度情報の合成技術では、この様な結果を得ることはできない。これに対して我々のアルゴリズムは、3次元超解像手法と、センサのノイズ特性を明示的に考慮する確率的なスキャン位置合わせアプローチとの、新しい組み合わせに基づいている。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


軌跡の分類、モデル化、そして検索のための増分DPMMベースの手法
An Incremental DPMM-Based Method for Trajectory Clustering, Modeling, and Retrieval (Abstract)

Weiming Hu, Chinese Academy of Sciences, Beijing Xi Li, Chinese Academy of Sciences, Beijing Guodong Tian, Chinese Academy of Sciences, Beijing Stephen Maybank, Birkbeck College, London Zhongfei Zhang, State University of New York, Binghamton

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1051-1065 , May 2013

Keywords: video retrieval,Trajectory clustering and modeling,incremental clustering,Dirichlet process mixture model,time-sensitive Dirichlet process mixture model

軌跡解析(trajectory analysis)は多くの用途の根幹を成す。これらの用途の例としては、ビデオにおける動作イベントのインデックス化、活動認識、そして監視などが挙げられる。本論文では、ディリクレ過程混合モデル(Dirichlet Process Mixture Model, DPMM)を軌跡の分類、モデル化、そして検索に利用する。我々は、増分型のDPMMベースの分類アルゴリズム(incremental version of a DPMM-based clustering algorithm)を提案し、軌跡の分類に用いる。軌跡の適切なクラスタ数は自動的に決定される。既存のクラスタに属さない軌跡が入力された際には、この新しいクラスタはオンラインで識別され、既存のデータを用いた再学習を行うことなくモデルに追加される。時間に敏感なディリクレ過程混合モデル(time-sensitive Dirichlet Process Mixture Model, tDPMM)を各軌跡クラスタに適用し、クラスタに属する軌跡の時系列特性を表現する軌跡パターンを学習する。その後、各クラスタについてパラメータ化されたインデックスが構築される。tDPMMに対する新しい尤度推定アルゴリズムを提案し、軌跡に基づくビデオ検索モデルを実現する。tDPMMに基づく確率的マッチング手法と、DPMMに基づくモデル成長法(model growing method)とを組み合わせることで、先述の検索モデルの拡張性と柔軟性を向上する。最先端のアルゴリズムとの比較実験により、我々のアルゴリズムの有効性を示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


物体の認識と分割のためのハフ・フォレスト確率場
Hough Forest Random Field for Object Recognition and Segmentation (Abstract)

Nadia Payet, Oregon State University, Corvallis Sinisa Todorovic, Oregon State University, Corvallis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1066-1079 , May 2013

Keywords: Training,Hafnium,Image segmentation,Object recognition,Vegetation,Proposals,Image edge detection,Metropolis-Hastings algorithm,Object recognition and segmentation,conditional random field,Hough forest

本論文では、画像中に出現する物体の検出と分割のための新しい計算フレームワークを示す。我々はハフ・フォレスト(Hough Forest, HF)と条件付確率場(Conditional Random Field, CRF)とを組み合わせてHFRF(Hough Forest Random Field)を構築し、画像領域に対して物体クラスのラベル付けを行う。HFは物体に固有の文脈的な特徴を捉える。その後、CRFはHFによって生成されたラベル仮説を統合し、出現する全ての物体を識別する。HFRF推論において生じるHFとCRFとの間の相互作用には、メトロポリス・ヘイスティングス法(Metropolis-Hastings algorithm)が用いられる。メトロポリス・ヘイスティングス法における可逆ジャンプは、提案分布と事後分布における2種類の比に依存する。我々は、4種類の分布を推定するのではなく、前述の2種類の比をHFにより直接計算する。葉ノード(leaf node)では、HFは学習事例のクラスヒストグラムとそれらの設定情報を記録する。この情報は、2種類の分布比のノンパラメトリック推定のための推論に用いられる。ベンチマークデータセットを用いた評価実験により、提案手法は他の最先端の手法と比較して、物体の検知精度が高く、物体の誤分割が少なく、且つ推定の収束性が高いことが示される。本論文では更に、HFとHFRFを2クラスの物体の検知と分割に適用した際の、誤差の理論値を提示する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3次元モーフィングモデルを用いた顔の逆レンダリング
Inverse Rendering of Faces with a 3D Morphable Model (Abstract)

Oswald Aldrian, University of York, York William A.P. Smith, The University of York, York

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1080-1093 , May 2013

Keywords: Training,Hafnium,Image segmentation,Object recognition,Vegetation,Proposals,Image edge detection,Metropolis-Hastings algorithm,Object recognition and segmentation,conditional random field,Hough forest

本論文では、3次元モーフィングモデル(3D Morphable Model, 3DMM)を用いて顔を逆レンダリングする完全なフレームワークを示す。画像生成プロセスを幾何学的要素(geometric part)と測光的要素(photometric part)とに分解することで、この問題を正確かつ効率的に解くことのできる多重線形システム(multilinear system)として記述することが可能となる。各構成要素を独立に扱うため、目的関数はパラメータ空間において凸であり、大域解が得られることが保証される。我々はまず、実験的計測により得られたモデルの汎化誤差を導入する新しいアルゴリズムを用いて、3次元形状を復元するところから始める。次に、顔のテクスチャ、拡散光、正反射率、そしてカメラ特性を1枚の画像から復元する2つの手法を説明する。これらの手法は徐々に弱まる仮説(increasingly weak assumptions)を用い、線形に解くことができる。提案手法を公開データベースを用いて評価し、最先端のアルゴリズムを凌駕すること示す。また、提案手法により復元されたパラメータの有用性を、CMU-PIEデータベースを用いた認識実験により示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


異なる照明とカメラにより撮影されたステレオ画像のための深度マップと色一致度の同時推定
Joint Depth Map and Color Consistency Estimation for Stereo Images with Different Illuminations and Cameras(Abstract)

Yong Seok Heo, Seoul National University, Seoul Kyoung Mu Lee, Seoul National University, Seoul Sang Uk Lee, Seoul National University, Seoul

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1094-1106 , May 2013

Keywords: Image color analysis,Joints,Radiometry,Stereo vision,Robustness,Cameras,Probability density function,color consistency,Stereo matching,radiometric variation,mutual information,SIFT

本論文では、放射特性の異なる(radiometrically varying)ステレオ画像から、正確な深度マップと色の一致したステレオ画像を推測する手法を提案する。一般的には、ステレオ画像間のステレオマッチングと色の一致(perform color consistency)は、同時に両方のゴールを達成することが容易にはできない、鶏卵問題である。このため、我々はこれら2つの過程が相互に高めあう(these two processes can boost each other)、新しい反復的なフレームワークを構築する。まず、入力のカラー画像を対数色度色空間(log-chromaticity color space)に変換することで、変換後の左右のカラー画像間の結合確率密度関数(joint pdf)を構築する際に、線形関係(linear relationship)が築けるようにする。この結合確率密度関数を用いることで、ステレオ画像間の対応画素を関連付ける線形関数を推定することができる。この線形性に基づき、相互情報量(Mutual Information, MI)、SIFT記述子、そして断片に基づく平面フィッティングを組み合わせた、新しいステレオマッチングのコストを提示する。このコストを用いることで、放射特性の異なるステレオ画像対における対応関係を頑健に検出できる。一方、我々はステレオ色ヒストグラム平坦化(Stereo Color Histogram Equalization, SCHE)手法を考案し、色の一致したステレオ画像対を生成する。この手法は、視差マップの推定を高める効果を持つ。実験結果から、提案手法は深刻な放射特性の差異のあるステレオ画像であっても、正確な深度マップと色の一致したステレオ画像を生成できることが示される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オプティカルフローの確信度指標の学習
Learning a Confidence Measure for Optical Flow (Abstract)

Oisin Mac Aodha, University College London, London Ahmad Humayun, Georgia Institute of Technology, Atlanta Marc Pollefeys, ETH, Zurich and University of North Carolina at Chapel Hill, Chapel Hill Gabriel J. Brostow, University College London, London

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1107-1120 , May 2013

Keywords: Optical imaging,Adaptive optics,Optical variables measurement,Vectors,Prediction algorithms,Supervised learning,Accuracy,algorithm selection,Optical flow,confidence measure,Random Forest,synthetic data

オプティカルフロー・ベクトルの画素単位の確信度を推定するための、教師付き学習に基づく手法を示す。(既存の)オプティカルフロー・アルゴリズムは、テクスチャが少ない領域や、遮蔽境界(occlusion boundary)の近傍の画素を苦手とすることが知られている。我々の手法は、特定のフロー・アルゴリズムのクラスに限定されず、またシーンに依存する仮定を一切置かない。この確信度を自動的に学習することで、異なるアルゴリズムを用いて算出された複数のフロー場(flow field)を組み合わせ、画素ごとに最良のアルゴリズムを選択することができる。我々のオプティカルフロー確信度指標は、最も対処が難しい画素を破棄することで、より良好な最終結果を得ることができる。提案手法の有効性を、4種類の異なるオプティカルフロー・アルゴリズムを多様な実画像系列と合成画像系列に適用することで示す。アルゴリズムの選択においては、提案手法は多くのテストセットにおいて最高クラスの最終結果を達成し、時に候補の中の最良のアルゴリズムすら凌駕する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率伝播によるトピックモデルの学習
Learning Topic Models by Belief Propagation (Abstract)

Jia Zeng, Soochow University, Suzhou William K. Cheung, Hong Kong Baptist University, Hong Kong Jiming Liu, Hong Kong Baptist University, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1121-1134 , May 2013

Keywords: Indexes,Approximation algorithms,Hidden Markov models,Approximation methods,Joints,Inference algorithms,Computational modeling,variational Bayes,Latent Dirichlet allocation,topic models,belief propagation,message passing,factor graph,Bayesian networks,Markov random fields,hierarchical Bayesian models,Gibbs sampling

潜在的ディリクレ配分法(Latent Dirichlet Allocation, LDA)は、確率的なトピック・モデリングにおける重要な階層型ベイズモデルである。この手法は世界中の関心を集めており、テキストマイニング、コンピュータビジョン、そして計算生物学における多数の重要な応用用途において利用されている。本論文では、崩壊型LDA(collapsed LDA)を因子グラフ(factor graph)として表現する。これにより、近似的推論(approximate inference)やパラメータ推定に、伝統的なループを持つ確率伝播アルゴリズム(loopy belief propagation algorithm)が適用できる。変分ベイズ法や崩壊型ギブスサンプリングなど、一般的に用いられる2つの近似的推論手法は、LDA学習において大きな成功を収めている。しかし、4種類の大規模な文書データセットを用いた実験結果から、提案する確率伝播法(Belief Propagation, BP)は速度と精度の観点で前述の手法に匹敵することを証明される。更にBPアルゴリズムは、LDAベースのトピックモデルの崩壊空間(collapsed space)における亜種(variants of LDA-based topic models)を学習ための体系となり得る。このことを示すために、LDAベースのトピックモデルの亜種のうち典型的な2種類を、因子グラフ表現に基づくBPを用いて学習する方法について紹介する。取り上げるトピックモデルの例は、著者トピックモデル(Author-Topic Model, ATM)と関係トピックモデル(Relational Topic Model, RTM)である。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


分類器融合と特徴合成のための線形依存性モデリング
Linear Dependency Modeling for Classifier Fusion and Feature Combination (Abstract)

Andy Jinhua Ma, Hong Kong Baptist University, Hong Kong Pong C. Yuen, Hong Kong Baptist University, Kowloon Jian-Huang Lai, Sun Yat-Sen University, Guangzhou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1135-1148 , May 2013

Keywords: Joints,Mathematical model,Computational modeling,Kernel,Vectors,Linear programming,Optimization,multiple feature fusion,Linear dependency modeling,feature dependency,classifier level fusion,feature level fusion

本論文において、融合過程(fusion process)における独立仮定問題(independent assumption issue)を取り上げる。過去10年間に渡り、依存性モデリング手法(dependency modeling technique)の開発は、特定の分類器分布(classifier distribution)を前提とするか、事後確率の同時分布を推定することで行われている。本論文では、特徴量分布や分類器分布に関する仮定を一切おかずに特徴量間の依存性をモデル化する、新しいフレームワークを提案する。そして、このフレームワークにより高次元同時分布の推定における課題を解決する。本論文において我々は、特徴量間の依存性が、少数の緩い仮定の元で、事後確率の線形結合としてモデル化できることを証明する。線形結合の特性に基づき、分類器線形依存性モデリング(Linear Classifier Dependency Modeling, LCDM)と特徴量線形依存性モデリング(Linear Feature Dependency Modeling, LFDM)と呼ぶ2つの手法を導出し実装することで、前者は分類器レベル、後者は特徴量レベルにおける依存性モデリングを行う。LCDMとLFDMの最適モデルは、真の事後確率(genuine posterior probability)と偽の事後確率(imposter posterior probability)とのマージンを最大化することで学習する。実験には合成データと実データセットとを用いる。実験結果から、LCDMは既存の分類器レベルの結合手法を、非正規分布(nonnormal distribution)において凌駕することが示される。また、LFDMは既存の特徴レベルの結合手法を、4つの実データセットにおいて凌駕することが示される。分類器レベルと特徴量レベルの融合手法を比較すると、LFDMが最も高性能である。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


回帰ベースの顔特徴点検出のための局所的な証拠の集約
Local Evidence Aggregation for Regression-Based Facial Point Detection (Abstract)

Brais Martinez, Imperial College London, London Michel F. Valstar, University of Nottingham, Nottingham Xavier Binefa, Universitat Pompeu Fabra, Barcelona Maja Pantic, Imperial College, London and University of Twente, The Netherlands

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1149-1163 , May 2013

Keywords: Shape,Face,Prediction algorithms,Training,Vectors,Support vector machines,Feature extraction,support vector regression,Facial point detection,object detection,probabilistic graphical networks

我々は、正面とほぼ正面から撮影された顔画像において、顔特徴点(facial points)を検出するための新しいアルゴリズムを提案する。本手法は、回帰ベースのアプローチと確率的グラフィカルモデル・ベースの顔形状モデルとを組み合わせる。後者は擬人的に平坦な領域(anthropomorphically consistent region)に探索範囲を制限する。多くの回帰ベースのアプローチは、対象位置の逐次推定(sequential approximation)を行うのに対し、我々のアルゴリズムは統計的に選択された局所形状情報(local appearance information)から得られた推測を1つの頑強な予測に集約することで、対象位置を検出する。根底にある仮定は、「入力される独立変数(regressor)に相関がなければ、異なる推測を集約することで、個々の推測の誤差が互いに打ち消しあう」、というものである。この新しい視点が適用されることで、この問題は独立変数を評価するテスト位置を、どのようにして最適に選ぶかという問題に変換される。我々は回帰ベースのモデルを拡張し、各予測の品質の評価値を供給するとともに、形状モデルを用いてサンプリング領域の限定と修正を行うことを提案する。我々のアプローチは、回帰ベースのアプローチの特徴である計算コストの低さと、全探索アプローチ(exhaustive-search approach)の頑強さとを組み合わせる。提案アルゴリズムを5種類のデータベースから7500枚を超える画像についてテストする。この結果、最先端の手法と比較して、顕著な改善が確認される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数の記述子の融合カーネルを用いた頑強なコンポーネントベースの顔認識のためのマルチスケール局所位相量子化
Multiscale Local Phase Quantization for Robust Component-Based Face Recognition Using Kernel Fusion of Multiple Descriptors (Abstract)

Chi Ho Chan, University of Surrey, Guildford Muhammad Atif Tahir, University of Surrey, Guildford Josef Kittler, University of Surrey, Guildford Matti Pietikäinen, University of Oulu, Oulu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1164-1177 , May 2013

Keywords: Face,Kernel,Face recognition,Histograms,Vectors,Lighting,Databases,kernel fusion,Face recognition,face image representation,local binary pattern,local phase quantization,kernel discriminant analysi

制御されていない照明やボケを伴う顔の認識は困難を伴う。ボケによる画像の劣化は実世界の画像において頻繁に見られが、興味深いことに顔認識コミュニティーではほとんど見落とされている。このような劣化は、顔情報を破損し、画像の位置合わせに影響を与えることで、共に認識精度に悪影響を与える。我々は、ボケに対して頑強なシステムを実現するための多数の対策を提案する。第一に、我々は局所位相量子化(Local Phase Quanlization, LPQ)に基づくボケに頑強な新しい顔画像記述子を提案し、これをマルチスケール・フレームワーク(MLPQ)に拡張することで、その効果をより高める。位置ズレに対する反応を最小化するために、コンポーネントベースのフレームワークを導入することで、MLPQ記述子を領域ごとに計算する。第二に、領域特徴(regional feature)をカーネル融合(kernel fusion)を用いて組み合わせる。第三に、提案するMLPQ表現とマルチスケール局所二値パターン(Multiscale Local Binary Pattern, MLBP)記述子とをカーネル融合により組み合わせることで、照明条件に対する頑強さを向上する。組み合わせた特徴をカーネル判別分析(Kernel Discriminant Analysis, KDA)することで、顔認識に用いる判別的情報(discriminant information)を抽出する。最後に、2種類の幾何正規化(geometric normalization)により、異なる顔画像スケールから複数のスコアを生成して組み合わせることで、精度を更に向上させる。提案手法を、(人工的に生成した線形のブレにより劣化された)イェールと拡張イェールデータベースB、並びに、FERET、TRGC 2.0、そしてLFWデータベースを用いて包括的に評価する。提案する結合システムは、類似するシステム設定を用いた最先端のアプローチに比類する性能を示す。本論文で紹介する内容は、さまざまな顔表現と融合方法の利点と、これらが異なる照明やボケによる劣化に対処する上で果す役割に関する新しい知見を与える。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ストリーミング特徴を用いたオンライン特徴選択
Online Feature Selection with Streaming Features (Abstract)

Xindong Wu, Hefei University of Technology, Hefei and University of Vermont, Burlington Kui Yu, Hefei University of Technology, Hefei Wei Ding, University of Massachusetts Boston, Boston Hao Wang, Hefei University of Technology, Hefei Xingquan Zhu, University of Technology, Sydney

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1178-1192 , May 2013

Keywords: Markov processes,Redundancy,Algorithm design and analysis,Prediction algorithms,Training,Accuracy,supervised learning,Feature selection,streaming features

特徴空間の全体像が事前に分からないストリーミング特徴(streaming feature)を用いるための、新しいオンライン特徴選択フレームワークを提案する。我々はストリーミング特徴を、「学習事例数が固定である条件下で1つずつ追加される特徴」と定義する。この制約は、連続的に追加される観測データのみを扱い、ストリーミング特徴を軽視する、伝統的なオンライン学習手法とは対照的である。オンライン・ストリーミング特徴選択(Online Streaming Feature Selection, OSFS)における重要な課題は、1) 時間の経過に従い連続的に増加する特徴の総量、2) 大きさが未知ないし無限とみられる巨大な特徴空間、そして3) 学習開始時点における特徴セットの不完全性、である。本論文において我々は、極めて妥当で非冗長的な特徴を順次選択する、新しいOSFS手法を示す。効率的な高速OSFS(Fast-OFSF)アルゴリズムを提案し、特徴選択性能を向上する。提案アルゴリズムを、高次元データセットを用いて網羅的に評価すると共に、実世界ケーススタディーとしてクレーター検出を行う。実験結果から、提案アルゴリズムはコンパクト性と推測精度において、他のストリーミング特徴選択アルゴリズムを上回ることが示される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部分顔認識:位置合わせ不要のアプローチ
Partial Face Recognition: Alignment-Free Approach (Abstract)

Shengcai Liao, Michigan State University, East Lansing Anil K. Jain, Michigan State University, East Lansing Stan Z. Li, Chinese Academy of Sciences, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1193-1205 , May 2013

Keywords: Face,Face recognition,Detectors,Image edge detection,Robustness,Lighting,Histograms,open-set identification,Partial face recognition,alignment free,keypoint descriptor,sparse representation

全体顔の認識を行う多数の手法が開発され、良好な性能を実現している。しかし、顔画像の任意の部分領域を認識する研究はごく少数に留まっている。部分顔(partial face)は、制限なしの条件下で頻繁に出現し、特に監視カメラや手持ち機器(例えば携帯電話)で撮影された画像において顕著である。本論文において我々は、眼の位置を始めとする何らかの基準点(fiducial point)を用いた顔の位置合わせを必要としない、汎用的な部分顔認識アプローチを提案する。我々は、マルチキーポイント記述子(Multi-Keypoint Descriptor, MKD)に基づく、位置合わせ不要な顔表現を考案する。この表現では、顔の記述子の大きさは画像のコンテンツに基づいて決定される。この方法により、検索する顔が全体顔であっても部分顔であっても、大規模な記述子群からなる辞書により疎に表現できる。ガボール三値パターン(Gabor Ternary Pattern, GTP)と呼ぶ新しいキーポイント記述子を考案し、頑強で判別的な顔認識を行う。4つのパブリック・ドメインの顔データベース(FRGCv2.0、AR、 LFW、並びにPubFig)を用い、登録者を限定しない識別と認証のシナリオ(open-set identification and verification scenarios)による実験結果を報告する。提案手法と2つの商用顔認識SDK(PittPatt、FaceVACS)、並びに基本アルゴリズム(PCA+LDA、LBP)との比較から、提案手法が位置合わせを必要としないにも関わらず、全体として全体顔と部分顔の認識において優れていることが示される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2枚の平面鏡を用いたシルエットからの反射屈折カメラの自己校正
Self-Calibration of Catadioptric Camera with Two Planar Mirrors from Silhouettes (Abstract)

Xianghua Ying, Peking University, Beijing Kun Peng, Peking University, Beijing Yongbo Hou, Peking University, Beijing Sheng Guan, Peking University, Beijing Jing Kong, Peking University, Beijing Hongbin Zha, Peking University, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1206-1220 , May 2013

Keywords: Cameras,Mirrors,Reflection,Vectors,Calibration,Transmission line matrix methods,Geometry,planar mirrors,Self-calibration,circular points,silhouettes,catadioptric camera

物体が2枚の平面鏡の間で相互反射されている場合、我々はその物体自体と複数の反射像を同時に捕らえる画像を撮影することができる。つまり、単一のピンホールカメラを用いて、物体を複数の視点から捕らえた画像を同時に撮影することができる。本論文では、1枚の画像から得られる複数のシルエットを用いて、カメラの内部パラメータ(intrinsic parameter)と外部パラメータ(extrinsic parameter)とを復元する問題に主眼を置く。1枚の画像における視点群に属する視点ペア(view pairs among views in a single image)は、ペアを構成する2つの視点の関係から2種類に分割できる。これらは、いくつかの鏡(実像または虚像の鏡)によって反射されたものと、円運動をするものである。第一の種類に属するペアのエピ極(epipole)は、シルエット同士で共通する対角線の交点として容易に求まる。エピ極の射影特性から虚円点(imaged circular point)と2枚の鏡の成す狭角(included angle)を求める、効率的な手法を提案する。第二の種類に属するペアのエピ極は、単純な1次元の最適化問題を、エピ極の対角線に関する整合性拘束条件(consistency constraint of epipolar tangent lines)を用いて解くことにより、2枚の鏡間の交線の投影像(the projection of intersection line between two mirrors)と同時に求めることができる。1枚の画像における視点群の基本行列は、全て求まる。推定されたカメラの内部パラメータと外部パラメータから、ユークリッド復元(euclidean reconstruction)が得られる。提案するアプローチの有効性は実験により確認される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数画像の同時位置合わせ:類似度尺度と効率的な最適化
Simultaneous Registration of Multiple Images: Similarity Metrics and Efficient Optimization (Abstract)

Christian Wachinger, Technische Universitat Munchen, Munich and Massachusetts Institute of Technology, Cambridge Nassir Navab, Technische Universitat Munchen, Munich

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1221-1233 , May 2013

Keywords: Approximation methods,Optimization methods,Estimation,Joints,Density functional theory,Convergence,multimodal,Registration,groupwise,simultaneous,optimization,similarity measures

我々は同時位置合わせによる画像グループの整列に取り組む。そのため、ペアごとの累積推定(Accumulated Pair-wise Estimates, APE)と呼ばれる、多変量の類似度尺度に近年導入されたフレームワークに関する知見を提示する。また、このフレームワークのための効率的な最適化手法を導出する。より具体的には、我々はAPEを再尤推定フレームワークから数学的に厳密に導き出し、凝固フレームワーク(congealing framework)との関連性を構築する。これは凝固フレームワークを近隣情報(neighborhood information)に関して拡張することで初めて可能となる。更に、我々は同時位置合わせにおいて計算量が増加する問題に対処するために、APEに対する効率的な勾配ベースの最適化戦略である、ガウス-ニュートン法と効率的二次最小化法(Efficient Second-order Minimization, ESM)を導出する。我々はSSDに次いで、内因的に非正方な類似度指標(intrinsically nonsquared similarity measure)の、この最小二乗最適化フレームワークにおける利用方法を紹介する。ESMの基本的な仮定である、「特定の画像に基づいて完璧に位置合わせされた変位画像を推定する」ことは、ESMの用途を単一モードの位置合わせ(monomodal registration)に制限する。このため我々は、ESMで複数モード(multimodal)の位置合わせが実現できる、近年提案された画像の構造的表現(structural representation)を導入する。最後に、類似度尺度に対する最適化戦略の性能を評価し、ESMの非常に良好な結果を示す。この観点から、(ESMの)複数モードの位置合わせへの拡張は非常に興味深い。これは、公開されているデータセットにおいて位置ズレ量の正解値が提供されているものがあることから、評価に対する更なる可能性が開けるためである。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


インタラクティブなマルチラベル分割のための空間的に変動する色分布
Spatially Varying Color Distributions for Interactive Multilabel Segmentation (Abstract)

Claudia Nieuwenhuis, Technical University of Munich, Munich Daniel Cremers, Technical University of Munich, Munich

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1234-1247 , May 2013

Keywords: Image color analysis,Image segmentation,Joints,Motion segmentation,Kernel,Probability distribution,Bayesian methods,convex optimization,Image segmentation,spatially varying,color distribution

我々は、インタラクティブなマルチラベル分割のための、色分布の空間的変動を明示的に考慮する手法を提案する。このために、我々は色と空間的位置との同時分布を、一般化パルツェン密度推定子(generalized Parzen density estimator)をユーザの各書き込み(scribble)に適用することで推定する。このようにして空間座標において特定の色を観測する尤度を取得する。この尤度は複数領域の分割を目的とするベイジアンMAP推定法に組み込み、近年考案された凸緩和法により最適化する。これらの手法により、2領域(前景/背景)のケースにおいて大域最適性が、複数領域のケースにおいて有界最適性(bounded optimality)が、保証される。提案手法をグラブカット・ベンチマーク、最近公開されたグラーツ・ベンチマーク、そしてバークレー分割データベースに適用した結果を示す。この結果から、提案手法はグラブカット[32]、ランダム・ウォーカー[15]、ザントナーの手法[35]、TV-Seg[39]、そしてインタラクティブ・グラフカット[4]などの従来手法を、精度の面で凌駕する。我々の結果から、色モデルの空間的変動を考慮することで、インタラクティブな画像分割の性能の劇的な向上につながることが証明される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


混合ネットワークAND/OR検索による人々の手足の追跡
Tracking People's Hands and Feet Using Mixed Network AND/OR Search (Abstract)

Vlad I. Morariu, University of Maryland, College Park David Harwood, University of Maryland, College Park Larry S. Davis, University of Maryland, College Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1248-1262 , May 2013

Keywords: Extremities,Probabilistic logic,Pattern analysis,Training,Graphical models,Search problems,pictorial structures,Tracking,motion

我々は、混合確率と判別的ネットワーク、そしてそれらのAND/OR探索空間を活用したフレームワークを説明する。このフレームワークは、1つのカメラ視点から得られた2次元情報に基づき、インタラクションする複数の人間の手足を効率よく検出・追跡することを目的とする。我々のフレームワークは、部分または全体の遮蔽を伴う条件下で、複数の人間の頭、手、そして足を検出・追跡する。本フレームワークは、少数の制約のみ(複数視点、高解像度、活動に関する事前知識、更には大規模な学習セットを必要としない)で動作する。また、制約を活用すると共に、遅延評価(lazy evaluation)と綿密に計算された範囲情報 (carefully computed bound)とを用いたAND/OR分岐限定法(Branch-and-Bound)を用いることで、人物間の遮蔽を考慮することに伴う複雑なネットワークを効率的に解くことができる。我々の主要な貢献は次の2点である。1) 手足(extremities)に重点を置いた複数の人間の部位ベースの設計により、各フレームにおいて大域最適解を求めることができる。2) AND/OR分岐限定法、遅延係数評価(lazy factor evaluation)、そして係数コストに敏感な拘束条件(factor cost sensitive bound)に基づく効率的で高精度な最適化体系を構築する。提案手法を3つのデータセットを用いて試験する。これらは、公開されている単一人物のHumanEvaデータセット、屋外において複数人がインタラクションするグループミーティングのシナリオ、そして屋外の1対1のバスケットボールの動画である。最初のデータセットにより、提案手法が単一人物の条件下で最高峰の性能を収めることが示される。また、他の2つのデータセットにより、部分的または完全な遮蔽や高速で複雑な動作を伴うケースにおける頑強性が示される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


網膜の顕微鏡手術における器具の統合的な検出と追跡
Unified Detection and Tracking of Instruments during Retinal Microsurgery (Abstract)

Raphael Sznitman, Johns Hopkins University, Baltimore Rogerio Richa, Johns Hopkins University, Baltimore Russell H. Taylor, Johns Hopkins University, Baltimore Bruno Jedynak, Johns Hopkins University, Baltimore Gregory D. Hager, Johns Hopkins University, Baltimore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1263-1273 , May 2013

Keywords: Instruments,Target tracking,Surgery,Testing,Optimization,Aerospace electronics,retinal microsurgery,Unified object detection and tracking,active testing,instrument tracking,adaptive sensing

物体の追跡手法は概ね、検出による追跡(tracking by detection)と局所最適化による追跡(tracking through local optimization)の2グループのいずれかに属する。検出ベースの追跡手法の利点は、追跡対象の出現と消失を扱う能力にあるが、多くの場合に追跡対象の検出中における動作の連続性を活用していない。局所最適化の利点は、その効率性と精度にあるが、追跡対象を見失った場合に追跡を初期化するためのアルゴリズムが別途必要である。これら2つのアプローチの橋渡しをするために、我々は統合的な検出と追跡(unified detection and tracking)を時系列のベイズ推定問題として扱うフレームワークを提案する。提案するアプローチの根幹は、検出と追跡を、各フレームにおいて追跡対象を表現するパラメータを決定することを目標とする、逐次的なエントロピー最小化問題として扱うことにある。これを実現するために、我々はベイズ・フィルタリングによる能動的試験(Active Testing, AT)パラダイムを実装する。このことが、追跡対象物体が視界を定期的に出入りする状況において、検出と追跡を頑強に行えるフレームワークを実現する。提案するアプローチを網膜の(顕微鏡手術における)器具追跡問題に適用し、大規模な実験から提案手法が効率的で頑強な追跡ソリューションを実現できることを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


生体医学データの分析のためのシュレディンガー固有マップ
Schroedinger Eigenmaps for the Analysis of Biomedical Data (Abstract)

Wojciech Czaja, University of Maryland, College Park Martin Ehler, Helmholtz Zentrum, Munich and National Institutes of Health, Bethesda

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 5, pp. pp. 1274-1280 , May 2013

Keywords: Laplace equations,Vectors,Manifolds,Kernel,Eigenvalues and eigenfunctions,Biomedical imaging,Labeling,manifold learning,Schroedinger Eigenmaps,Laplacian Eigenmaps,Schroedinger operator on a graph,barrier potential,dimension reduction

我々は、新しい半教師あり多様体学習と復元技術であるシュレディンガー固有マップ(Schroedinger Eigenmaps, SE)を紹介する。この手法は、グラフ・シュレディンガー演算子(graph Schroedinger operator)と、適切に構築された障壁ポテンシャル(barrier potential)とをラベル情報の輸送子(carrier)として実装する。我々は、提案手法を標準の生体医学データセットと新しい網膜の分光画像の分析とに用いる。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.35, No.6


文書マイニングモデルの適用のための、低ランク共有概念空間の発見
Discovering Low-Rank Shared Concept Space for Adapting Text Mining Models (Abstract)

Bo Chen, The Chinese University of Hong Kong, Hong Kong Wai Lam, The Chinese University of Hong Kong, Hong Kong Ivor W. Tsang, Nanyang Technological University, Singapore Tak-Lam Wong, The Hong Kong Institute of Education, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1284-1297 , June 2013

Keywords: text mining,Domain adaptation,low-rank concept extraction

本稿では、低ランクの共有概念空間を見いだす文書マイニングモデルを適用するためのフレームワークを提案する。この概念空間の主な特徴は、十分にラベル付けられたソース領域と、ラベルづけられていないデータしかないターゲット領域の間の分布ギャップを最小化するのと同時に、ソース領域のラベル付けられたデータの実験誤差を最小化することである。本方式は、元の特徴空間と、カーネルトリックを用いて変換された再現核ヒルベルト空間(Reproducing Kernel Hilbert Space: RKHS)、の双方の領域適応のタスクを処理することができる。この適応モデルの誤差は、埋め込まれた分布ギャップとソース領域の実験誤差によって抑制されることが、理論解析により保証される。我々は、提案したフレームワークの効果を示すために、2つの一般的な文書マイニング問題、即ち、文書分類と情報抽出に関する広範な実験を行った。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ノンパラメトリックi.i.d.(独立同分布)統計的動的輪郭のための数値条件調整問題と解
Numerical Conditioning Problems and Solutions for Nonparametric i.i.d. Statistical Active Contours (Abstract)

Hao Wu, Georgia Institute of Technology, Atlanta Vikram Appia, Georgia Institute of Technology, Atlanta Anthony Yezzi, Georgia Institute of Technology, Atlanta

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1298-1311 , June 2013

Keywords: Active contours,Numerical models,Image segmentation,Adaptation models,Probability,Mathematical model,Optimization,localizing scale,Active contour,nonparametric region-based model,bounded gradient flow,conditioning ratio,clutter,adaptive global--to-local strategy

本稿では、画像のノンパラメトリックで独立かつ同一の分布に従う統計量 (独立同分布:independent and identically distributed: i.i.d.) に基づく動的輪郭モデルを提案する。このモデルでは、背景または関心領域の輝度分布に関する一切の事前知識を用いることなく、画像の領域を分割することができる。しかしながら、これは同様の仮定の下での分割問題を解くための初めての動的輪郭モデルというわけではない。このモデルでは、ノンパラメトリックi.i.d.統計に基づく従来の動的輪郭モデルと異なり、最適化基準を、動的輪郭の内外で推定された確率密度間の距離測度に従って、定式化することはしない。それに代わって、分割問題を画素毎の分類問題として取り扱う。この定式化では動的輪郭を、無作為に抽出された画素毎の平均分類誤り確率 (average misclassification probability: AMP) の最小化問題として定式化する。このことにより、動的輪郭の内外で推定された確率密度の差を計測するための距離測度を、多くの敏感な距離測度から選ぶ不定性のある選択の必要性が回避され、問題が単純化されるばかりでなく、そのような動的輪郭モデルに先立って生じる数値的な条件調整問題も解決される。結果として、確率距離を介した同様のノンパラメトリックi.i.d.統計的分割問題を解くための、これまでに定式化された動的輪郭モデルとの比較において、AMPモデルは、高精度で頑健さを備えつつ、より速く収束することが示される。この改善された数値的な振舞いを、より正確に論じるために、"調整比(conditioning ratio)"という概念を導入した。この調整比により、提案したAMP動的輪郭が、これまでの確率距離に基づいた動的輪郭よりも、数値的により良く(即ち、より小さい調整比に)調整されていることを示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ハイパーグラフ・クラスタリングに対するゲーム理論的アプローチ
A Game-Theoretic Approach to Hypergraph Clustering (Abstract)

Samuel Rota Bulò, Universita Ca Foscari di Venezia, Venezia Mestre Marcello Pelillo, Universita Ca Foscari di Venezia, Venezia Mestre

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1312-1327 , June 2013

Keywords: Sociology,Statistics,Game theory,Games,Standards,Clustering algorithms,Partitioning algorithms,high-order replicator dynamics,Hypergraph clustering,evolutionary game theory,polynomial optimization,Baum-Eagon inequality

ハイパーグラフ・クラスタリングは、 (組毎の類似性よりはむしろ) 高次の類似性を用いて、オブジェクトの集合から最も整合的な(coherent)グループを抽出する過程である。この問題に対する伝統的なアプローチは、入力データを予め決められた数のクラスに分割する考えに基づいており、これによって、分割過程の副作用としてクラスタを得ている。本稿では、この問題に対する根本的に異なる視点を提案する。古典的なアプローチと異なり、ここでは真のクラスタ概念の意味ある定式化を提供することを試みる。そして、ゲーム理論が我々の目的を上手く支える魅力的で未開拓の展望を提供することを示す。この目的のために、我々はハイパーグラフ・クラスタリング問題を非協力複数プレーヤーの「クラスタリング・ゲーム」の意味で定式化した。また、クラスタの自然な概念が、古典的な (進化) ゲーム理論的均衡性の概念と等価になることを示す。本稿では、このクラスタリング・ゲームの均衡を見つける問題が、標準単体上で多項式関数を局所最適化することと等価であることを証明する。また、この最適化を実行するための、Baum-Eagon不等式に基づく離散時間高次自己複製子力学系 (discrete-time high-order replicator dynamics) を提示する。 合成データおよび実世界データ上での実験により、最新の研究に対する本アプローチの優位性を示した。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高次元データからのガウス型ベイジアンネットワーク認識のための疎構造学習アルゴリズム
A Sparse Structure Learning Algorithm for Gaussian Bayesian Network Identification from High-Dimensional Data(Abstract)

Shuai Huang, Arizona State University, Tempe Jing Li, Arizona State University, Tempe Jieping Ye, Arizona State University, Tempe Adam Fleisher, Banner Alzheimer's Institute, Phoenix Kewei Chen, Banner Alzheimer's Institute, Phoenix Teresa Wu, Arizona State University, Tempe Eric Reiman, Banner Alzheimer's Institute, Phoenix the Alzheimer's Disease Neuroimaging Initiative

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1328-1342 , June 2013

Keywords: Algorithm design and analysis,Bayesian methods,Input variables,Machine learning,Accuracy,Brain models,data mining,Bayesian network,machine learning

ベイジアンネットワーク (Baysian Network : BN) の構造学習は、機械学習の重要な課題である。遺伝学や脳科学における現代的な応用に刺激されて、高次元データからの大規模なBN構造の正確で効率的な学習が困難な課題として注目されている。この課題に取り組む為に、我々は疎ベイジアンネットワーク (Sparce Basian Network : SBN) 構造学習を提案する。これは、一つのL1ノルムペナルティ項を含む新しい定式化を採用する。この追加された項は、学習したBNが、BNに要求される属性である直接非巡回グラフ (Direct Acyclic Graph : DAG) であることを保証するための物である。理論解析と、11の適度なサンプルサイズ及び大規模なサンプルサイズのベンチマークネットワーク上での広範な実験を通じて、SBNが、既存の良く知られたBN学習アルゴリズムと比較して、学習精度、拡張性、効率の改善をもたらすことを示す。本研究では、SBNをアルツハイマー症 (Alzheimer's disease : AD) の脳接続モデリングの現場応用に適用し、AD研究の前進をうながす発見をもたらしている。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


乱流運動のベイズ推定
Bayesian Estimation of Turbulent Motion (Abstract)

Patrick Héas, INRIA, Rennes Cédric Herzet, INRIA, Rennes Etienne Mémin, INRIA, IRSTEA, Rennes Dominique Heitz, IRSTEA, Rennes Pablo D. Mininni, University of Buenos-Aires, Buenos Aires and National Center for Atmospheric Research, Buenos Aires

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1343-1356 , June 2013

Keywords: Bayesian methods,Optimization,Vectors,Estimation,Motion estimation,Computational modeling,Optical imaging,Bayesian model selection,Optic flow,turbulence,robust estimation,constrained optimization

乱流の多重スケール構造を記述する物理法則に基づいて、本稿では、画像シーケンスから流体運動を推定するための正規化器を提案する。正規化は、複数の異なるスケールで計算された運動増分に関するヒストグラムの間の、ある尺度不変な属性を埋め込むことにより達成される。ベイズ推定の観点から、この問題を再定式化することにより、動き推定、ハイパーパラメータの正規化、および、幾つものモデルの中から最もありそうな物理的物理的事前確立分布を、連携してモデル群から選択するためのアルゴリズムを提案する。ハイパーパラメータとモデルの影響は、非ガウス的な運動変数の周辺化により得られる事後確率の最大化により導出される。ベイズ推定器の評価は、幾つかの合成映像と実映像による乱流を描写する画像シーケンス上で行なった。これにより、提案したアプローチにより、乱流推定に関する最新の結果を上回る結果が得られた。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


姿勢不変な表情認識のためのガウス過程対
Coupled Gaussian Processes for Pose-Invariant Facial Expression Recognition (Abstract)

Ognjen Rudovic, Imperial College London, London Maja Pantic, Imperial College, London and University of Twente, Enschede Ioannis (Yiannis) Patras, Queen Mary University, London

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1357-1369 , June 2013

Keywords: Face recognition,Head,Solid modeling,Active appearance model,Estimation,Training,Magnetic heads,Gaussian process regression,Multiview/pose-invariant facial expression/emotion recognition,head-pose estimation

本稿では、一連の顔の特徴点に基づく、頭の姿勢に不変な表情認識方法を提案する。頭の姿勢についての不変性の実現には、頭の姿勢を正規化するための、対をなす尺度づけされたガウス過程回帰モデル (Coupled Scaled Gaussian Process Regressin : CSGPR) を提案した。このモデルでは、最初に、 (離散的な) 正面を除く姿勢と、正面からの姿勢の組のそれぞれで、顔上の点の間の写像を独立に学習する。その後、それらの間の依存関係を取得するために、それらの対応付けを実行する。推定の間、異なる姿勢間の対をなす関数の出力は、クエリポイントに対する頭の姿勢推定に基づいて考案されたゲート関数を用いて結合される。提案モデルは、回帰分析に基づく頭姿勢の正規化に対する最新のアプローチよりも、2Dおよび3Dの点分布モデル (Point Distribution Model : PDM) や、動的アピアランスモデル (Active Appearance Model : AAM)、特に未知の姿勢やバランスの良くない訓練データにおいて優れている。提案した手法は、知る限りにおいて、-45°から40°の範囲で回転(パン)し、-30°から30°の範囲でチルトする顔の表示を扱え、さらに、実際には少数の離散的な姿勢集合の上で行なわれた訓練にも関わらず、連続的に頭の姿勢を変えられるような最初のものである。本手法の評価は、合成画像と、演技による表現および、自発的に表出した表情による実画像上で行なった。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


分類器適応による効果測定の効率最適化
Efficient Optimization of Performance Measures by Classifier Adaptation (Abstract)

Nan Li, Nanjing University, Nanjing and Soochow University, Suzhou Ivor W. Tsang, Nanyang Technological University, Singapore Zhi-Hua Zhou, Nanjing University, Nanjing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1370-1382 , June 2013

Keywords: Loss measurement,Algorithm design and analysis,Training,Vectors,Upper bound,Kernel,Educational institutions,curriculum learning,Optimize performance measures,classifier adaptation,ensemble learning

実践的応用において、機械学習アルゴリズムは、しばしば分野に特化した効率計測を最適化する分類器の学習を必要とする。これまでの研究では、必要とされる分類器の単独での学習に焦点を当ててきたが、非線形で滑らかではない効果計測のための非線形分類器の学習は、依然困難なままである。本稿では、この問題を、特定の性能計測を直接最適化することによって、必要される分類器を学習するのではなく、CAPOと名付けた新しい2段階のアプローチの提案により回避する。すなわち、既存の学習方法を用いて非線形の補助分類器を教育する最初の学習と、その後の、補助分類器の固有の特性計測への適応である。この第1のステップにおいて、補助分類器は既製の学習アルゴリズムにより効果的に学習される。第2のステップに対しては、分類器の適応問題を、二次計画問題に落とすことができることを示す。それは、線形SVM-perf (Support Vector Machine for Multivariate Performance Measure) と同様であり、効率良く解くことができる。非線形の補助分類器の採用により、CAPOは、高い計算効率を維持しつつ、分割表とAUCに基づく全ての特性計測を含めた、非常に多様な特性計測を最適化する非線形分類器を生成することができる。実験結果に基づいて、CAPOが、効果的で計算効率が高く、線形SVM-perfよりも有効であることを示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


フーリエ Lucas-Kanade アルゴリズム
Fourier Lucas-Kanade Algorithm (Abstract)

Simon Lucey, Commonwealth Science and Industrial Research Organisation (CSIRO), Brisbane Rajitha Navarathna, Queensland University of Technology, Brisbane Ahmed Bilal Ashraf, University of Pennsylvania, Philadelphia Sridha Sridharan, Queensland University of Technology, Brisbane

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1383-1396 , June 2013

Keywords: Active appearance model,Jacobian matrices,Integrated circuits,Vectors,Robustness,Linear programming,Lighting,active appearance model (AAM),Lucas & Kanade (LK),Fourier domain,illumination invariance

本稿では、フーリエ領域での勾配降下法による画像整列及びオブジェクト整列、双方のためのフレームワークを提案する。本手法は、古典的な Lucas & Kanade (LK) アルゴリズムに立脚している。そこでは、ソースおよびテンプレート/モデルを、2次元の空間領域ではなく、複素2次元のフーリエ領域上に表現する。本稿では、このアプローチを Fourier LK (FLK) アルゴリズムと呼ぶ。FLK定式化は、原画像とテンプレート/モデルに、フィルタバンクを用いた前処理を施す場合に有利である (例えば, 有効エッジ、ガボール、等)。即ち、1) 非常に多くの照明のバリエーションを扱うことができる。2) 非効率なフィルタバンク前処理段階を、疎な対角荷重行列として、FLKアルゴリズムに包含することができる。3) 伝統的なLKと異なり、計算コストはフィルタの個数に不変なため、結果として非常に効率が高い。4) 予め計算可能な、ほぼ全ての処理 (フーリエ変換とフィルタバンク前処理を含む) で、LKアルゴリズムの逆合成 (Inverse Compositional : IC) 形式に拡張可能であり、勾配降下画像マッチングへの非常に効率が良く、頑健なアプローチとなる。さらに、これらの計算改善は、動的アピアランスモデル (Active Appearance Model : AAM) に見られる様な、LKアルゴリズムの拡張と見なせる柔軟オブジェクト配置問題に変換できる。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ガイド付き画像フィルタ
Guided Image Filtering (Abstract)

Kaiming He, Microsoft Research Asia, Beijing Jian Sun, Microsoft Research Asia, Beijing Xiaoou Tang, The Chinese University of Hong Kong, Shatin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1397-1409 , June 2013

Keywords: Image edge detection,Kernel,Smoothing methods,Joints,Histograms,Laplace equations,Jacobian matrices,linear time filtering,Edge-preserving filtering,bilateral filter

本稿では、ガイド付きフィルタ (guided filter) と呼ぶ新しい明示的画像フィルタを提案する。局所線形モデルから導出されたガイド付きフィルタは、入力画像そのものか、別の画像を誘導画像として、その内容を考慮することにより、フィルタ出力を算出する。このガイド付きフィルタは、良く知られるバイラテラル・フィルタ [1] のように、エッジを保存する平滑化処理として利用されるが、エッジ近傍では、さらに良好な特性を示す。また、ガイド付きフィルタは、平滑化を超えた、より一般的な概念でもある。すなわち、誘導画像の構造を、フィルタ出力に変換することにより、霞除去やガイド付きのフェザリングのような新しいフィルタ応用が可能となる。さらに、カーネルの大きさと、対応する輝度レンジにも関わらず、ガイド付きフィルタは、高速で正確な線形時間アルゴリズムを自然に備えている。現時点において、これは最速のエッジ保存フィルタの一つである。ガイド付きフィルタが、エッジを認識した平滑化や、細部改善、高ダイナミックレンジ (HDR) 圧縮、画像のマッティング/フェザリング、霞除去、連結アップサンプリング等を含めた、非常に多様なコンピータ・ビジョンおよび、コンピュータ・グラフィクスの応用において、効果的で高効率であることを実験により示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カーネル・プロトタイプ類似性を用いた不均一顔認識
Heterogeneous Face Recognition Using Kernel Prototype Similarities (Abstract)

Brendan F. Klare, Noblis, Falls Church Anil K. Jain, Michigan State University, East Lansing and Korea University, Seoul

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1410-1422 , June 2013

Keywords: Face,Face recognition,Kernel,Prototypes,Probes,Forensics,Training,forensic sketch,Heterogeneous face recognition,prototypes,nonlinear similarity,discriminant analysis,local descriptors,random subspaces,thermal image,infrared image

不均一顔認識 (Heterogeneous face recognition : HFR) は、写真に対する赤外画像やスケッチのような、代替画像様式からの2つの顔のマッチングに関係している。正確なHFRシステムは、写真が貼付けられた評価データベース (例えば、顔写真 (mug shot) やパスポート写真) のあるさまざまな応用において、大変重要な価値がある (例えば、科学捜査や監視)。しかし、探索画像は、しばしば何らかの代替様式に制限される。一般的なHFRフレームワークでは、探索画像と評価画像集の双方が、顔画像プロトタイプのコレクションに対する非線形類似性の観点で表現されたものが提案される。プロトタイプ事例 (例えば、トレーニングセット) は、各様式 (探索用と評価用) 毎の画像を有し、画像の類似性は、関連する様式のプロトタイプ画像に対して計測される。この非線形プロトタイプ表現の精度は、特徴量を線形の弁別部分空間に射影することで改善される。また、HFRフレームワークに対して、小サンプルサイズ問題から生じる課題をより上手く扱えるよう、無作為抽出を導入した。プロトタイプ確率部分空間 (prototype random subspace : P-RS) と名付けた提案手法の利点を、以下の4つの異種シナリオ、即ち、1) 近赤外 (NIR)、2) 温度、3) 観察スケッチ、4) 法廷スケッチ、から写真へのシナリオにより示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


正確な顔と人の検出のための局所変換特徴量と、それらのハイブリッド化
Local Transform Features and Hybridization for Accurate Face and Human Detection (Abstract)

Bongjin Jun, Pohang University of Science and Technology, Pohang Inho Choi, Pohang University of Science and Technology, Pohang Daijin Kim, Pohang University of Science and Technology, Pohang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1423-1436 , June 2013

Keywords: Transforms,Face,Feature extraction,Histograms,Humans,Robustness,Face recognition,face and human detection,Local binary pattern,local gradient pattern,binary histograms of oriented gradients,feature hybridization

本稿では、2つの新しい局所変換特徴量を提案する。局所勾配パターン (local gradient patterns : LGP) と、方位つき勾配の2値ヒストグラム (binary histograms of oriented gradients : BHOG) である。LGPは、与えられた画素に隣接する勾配が、その画素の8つの隣接勾配よりも大きい場合に1を割り付け、それ以外の場合に0を割り付ける。これにより、エッジ要素に沿った局所輝度変化量が頑健に構築される。BHOGは、ヒストグラムのビンが、全てのビンの平均値より大きい値を持てば1を割り付け、それ以外の場合に0を割り付ける。これにより、それ以上の処理時間とSVM分類が不要となるため、計算時間が短縮される。本稿では、AdaBoostを利用することで、幾つかの局所変換特徴を結合したハイブリッド特徴も提案する。これにより、最小の分類誤差をもつ最良の特徴が、要求された分類性能に達するまで順次選択される。このようなハイブリッド化により、顔と人の検出が頑健となる。即ち、全体的な照明の変化に対しては、LBPにより頑健となり、局所的な輝度の変化についてはLGP、そして、局所的な姿勢変化に対してはBHOGによる。これらの働きにより、検出効率が著しく改善される。提案した特徴量は、MIT+CMUおよびFDDBのデータベースを利用した顔検出に適用した、また、人の検出については、INRIAとCaltechのデータベースを利用した。実験結果から、提案したLGPとBHOG特徴量により、それぞれ、正確な検出性能と高速計算が達成されることを示す。また、ハイブリッド特徴量により顔と人の検出性能が著しく改善されることを示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所的無秩序画像の位置合わせ
Locally Orderless Registration (Abstract)

Sune Darkner, University of Copenhagen, Copenhagen Jon Sporring, University of Copenhagen, Copenhagen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1437-1450 , June 2013

Keywords: Histograms,Kernel,Loss measurement,Image registration,Joints,Estimation,Convolution,Locally Orderless Images,Similarity measure,registration,Normalized Mutual Information,Sum of Squared Differences,density estimation,local histogram,scale space

本稿では、広く知られている (しかし、一見非常に異なる) 多数の類似性尺度を算出するための統一されたアプローチを提示する。我々の研究領域は、正規グリッド上のn-次元画像サンプルの位置合わせであり、本アプローチは、勾配に基づく最適化アルゴリズムに適している。このアプローチは、局所輝度ヒストグラムに基づき、局所的無秩序画像(Locally Orderless Images)の手法の上に構築される。局所的無秩序画像によるヒストグラムは良設定であり、3つの本質的で不可避な尺度 (空間解像度、輝度レベル、局所ヒストグラムの空間的広がり) 上での明示的な制御を提供する。本稿では、この局所的無秩序画像を通して、これらの尺度間の関係に新しい視点を提案する。また、局所的に無秩序な位置決めアルゴリズムの開発により、二つの全く異なる類似性尺度、即ち相互情報の正規化と誤差二乗和が統合されることを示す。そして、これらの様々な組合せについて、理論と実験の双方からの比較を行う。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


環境非依存な分離地図作成による単眼SLAM
Monocular SLAM with Conditionally Independent Split Mapping (Abstract)

Steven A. Holmes, University of Oxford, Oxford David W. Murray, University of Oxford, Oxford

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1451-1463 , June 2013

Keywords: Cameras,Optimization,Simultaneous localization and mapping,Complexity theory,Real-time systems,Jacobian matrices,Tracking,submapping,Monocular SLAM,relative bundle adjustment,parallel tracking and mapping,split-mapping

広範な領域に渡る実時間での動きからの構造復元は、計算の複雑さと数値誤差からくる矛盾を緩和する手法を必要とする。我々の開発したSCISMは、相対フレームバンドル調整法に基づいたアルゴリズムであり、カメラが実時間で局所地図を成長させ探索し続けることができるように、3次元目印 (3D landmark) とキーフレームが埋め込まれた地図から、修復された地図を分離しつつ、同時にその背景で大規模地図の最適化を行なう。この方法では、一時的に、幾つかの測定を除くことにより、双方の地図の一貫性が確保される。また、相対フレーム表現を用いることにより、大域的な処理よる新しい結果が、局所的な処理を妨げることなく更新される。本稿では、最初にこの表現を、平行追跡マッピング法 (parallel tracking and mapping : PTAM) や、実時間バンドル調整、大域的で相対的なフレームを用いて得られる結果の比較などに適用する方法を示す。次いで、SCISMにおける相対表現の利用を説明し、PTAMを用いた実装について述べる。また、屋外環境でのアルゴリズムの実時間動作の実証と、より伝統的な補助地図作成 (submapping) アプローチとの比較についても報告する。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時系列データ解析のための頑健な極値特徴量
Robust Extrema Features for Time-Series Data Analysis (Abstract)

Pramod K. Vemulapalli, The Pennsylvania State University, State College Vishal Monga, The Pennsylvania State University, State College Sean N. Brennan, The Pennsylvania State University, State College

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1464-1479 , June 2013

Keywords: Robustness,Feature extraction,Vectors,Time series analysis,Optimization,Encoding,Noise,extrema features,Time series,pattern recognition,feature extraction

時系列の比較と解析のための頑健な特徴量抽出は、基本的に重要な課題である。この分野の研究努力は、離散フーリエ変換やウェーブレット変換、さまざまな距離計量、そして、時系列からの注視点 (interest point) の抽出など、良く知られた信号解析ツールを用いた次元削減を含んでいる。近年、時系列データ解析のための極値特徴量では、実用上のさまざまな歪みや、表現の経済性、計算上の利便性の下での自然な頑健性を理由として、優位性が増していると考えられる。どの場合でも、極値特徴量を符号化する過程では、直感的に動機付けられたフィルタによる、時系列のフィルタリングが先行し、それに頑健な極値を識別するための閾値処理が続く。本稿では、特徴量を生成する過程の各ステップにおいて、設計選択を識別することを可能とするための手段としての頑健性、唯一性、濃度の特性を定義する。分野知識、あるいは直感から着想されたフィルタを利用する既存の手法と異なり、ここでは、抽出された極値特徴量の頑健性を最適化するための訓練時系列情報に基づいて、明示的にフィルタを最適化する。さらに、背景にあるフィルタ最適化問題が、固有値問題に還元され、それが扱いやすい解を持つことを示す。また、濃度と唯一性の上の制御を改良する符号化技術も提示する。実験により、時系列の部分系列マッチングの問題が、提案アルゴリズムの利点を立証する結果が得られた。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


勾配分布対称性からの単一画像の周辺減光(ビネッティング)補正
Single-Image Vignetting Correction from Gradient Distribution Symmetries (Abstract)

Yuanjie Zheng, University of Pennsylvania, Philadelphia Stephen Lin, Microsoft Research Asia, Beijing Sing Bing Kang, Microsoft Corporation, Redmond Rui Xiao, University of Pennsylvania, Philadelphia James C. Gee, University of Pennsylvania, Philadelphia Chandra Kambhamettu, University of Delaware, Newark

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1480-1494 , June 2013

Keywords: Optical imaging,Adaptive optics,Optical distortion,Histograms,Estimation,Nonlinear optics,Optical sensors,nonuniformity correction,Vignetting correction,camera calibration,low-level vision,bias correction

本稿では、画像勾配の2つの形式の対称性に基づく単一画像周辺減光(ビネッティング)補正のための新しい技術を提示する。それらは、半円状接勾配 (semicircular tangential gradient: SCTG) と、放射方向勾配 (radial gradient : RG) である。与えられた画素に対して、SCTGは、推定光学中心を中心とする円の接線方向に沿った画像勾配である。 RGは、光学中心の半径方向に沿った画像勾配である。SCTGとRG分布の対称性は、画像の周辺減光に密接に関係していることを観測した。これらの対象性に基づいて、SCTG分布の非対称性を最小化することによる、自動光学中心推定アルゴリズムを開発した。また、RG分布の非対称性の最小化に基づく2つの周辺減光推定法も提示する。単一画像の周辺減光補正に関するこれまでのアプローチとの比較において、本手法は、画像分割に依存すること無く、より正確な結果をもたらした。実験により、本手法は、最新の手法と比較して3〜5倍の速度向上を達成する一方で、広範な画像に対して適切に動作することを示した。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


GPU上の大規模3Dモデルの表面および曲線のスケルトン化
Surface and Curve Skeletonization of Large 3D Models on the GPU (Abstract)

Andrei C. Jalba, Eindhoven University of Technology, Eindhoven Jacek Kustra, Philips Research, Eindhoven Alexandru C. Telea, University of Groningen, Groningen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1495-1508 , June 2013

Keywords: Skeleton,Shape,Graphics processing unit,Surface reconstruction,Image reconstruction,Timing,skeleton regularization,Medial axes,geodesics

本稿では、大規模多面体メッシュとして表現された3D形状の、表面および曲線のスケルトンを展開するためのGPUに基づくフレームワークを提示する。ここでは、点群(point-cloud)スケルトン計算のための効率の良い並列探索戦略と、ユーザによって与えられる精度に従ったそれらの距離と、特徴変換 (feature transform : FT) を使用する。また、スケルトンを、同様技術よりも何桁も高速な、新しいGPUに基づく測地的トレース技法により正規化する。我々は、高速で正確な画像に基づいた手法により、スケルトン群 (skelton cloud) から入力表面を再構築する。また、多面体メッシュとしてのスケルトン多様体構造と、線分群としての曲線スケルトンの再構築方法も示す。近年のスケルトン化方法と比較して、本提案アプローチは、2桁の高速化と、高精度、低メモリ消費を提供する。本稿では、このフレームワークを、幾つかの複雑な3Dモデルにより示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


K-モード型クラスタリングの収束性に関するクラスタ表現の影響
The Impact of Cluster Representatives on the Convergence of the $(K)$-Modes Type Clustering (Abstract)

Liang Bai, Shaxi University, Shanxi and City University of Hong Kong, Hong Kong Jiye Liang, Shaxi University, Shanxi Chuangyin Dang, City University of Hong Kong, Hong Kong Fuyuan Cao, Shaxi University, Shanxi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1509-1522 , June 2013

Keywords: Clustering algorithms,Prototypes,Algorithm design and analysis,Convergence,Optimization,Linear programming,Frequency measurement,convergence,Clustering,$(K)$-modes type clustering algorithms,categorical data,weighted cluster prototype

優れた分割クラスタリング方法として、k-モードは、カテゴリーデータに対する最も計算効率の良い手法の一つである。k-モードでは、クラスタは"モード"により表現される。モードは、クラスタそれぞれの属性領域で、最も頻出する属性値により構成される。一方、実際の応用ではクラスタを表現するための各属性の内、ただ一つの属性の値を用いることは、データ分析の精度に影響する可能性があるという意味で、適切ではないかもしれない。この欠点を除くため、各属性の複数の属性値に対して適切な重みを割りつけることにより、幾つかの改良されたクラスタリングアルゴリズムが開発されている。しかしながら、これらの改良アルゴリズムは効果的であるものの、それらの収束性は保証されていない。本稿では、それらの収束性について分析し、本来のk-モード型アルゴリズムに対する質を落とさない限り、それらの最適化フレームワークの下での収束を保証することはできないことを証明する。さらに、これら既存のアルゴリズムの欠点を打開するために、重み付けられたクラスタ・プロトタイプを用いた2つの異なる改良アルゴリズムを提案する。我々は、提案アルゴリズムのための更新された式を厳格に導出し、提案アルゴリズムの収束性を証明する。実験により、提案アルゴリズムが、大規模なカテゴリカル・データベースに対して、効果的で効率的であることを示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


順序データのモデル化のための無限次元条件付き確率場モデル
The Infinite-Order Conditional Random Field Model for Sequential Data Modeling (Abstract)

Sotirios P. Chatzis, Cyprus University of Technology, Limassol Yiannis Demiris, Imperial College London, London

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 6, pp. pp. 1523-1534 , June 2013

Keywords: Computational modeling,Data models,Context,Hidden Markov models,Inference algorithms,Context modeling,Approximation methods,mean-field principle,Conditional random field,sequential data,sequence memoizer

順序データラベリングは、機械学習応用における基本的なタスクである。幾つか例を挙げるならば、会話や自然言語処理、ビデオシーケンスにおける能動性認識、生化学データ分析などが特徴的な例である。条件付き確率場 (conditional random field : CRF)、即ち、観測ラベルの条件付き分布を表現した対数-線形モデルは、順序データラベリングと分類に対して、最も成功したアプローチの一つであり、さまざまなシナリオで優れた予測精度を達成するものとして、近年、機械学習において多大な注目を集めてきた。それにも関わらず、既存のCRF定式化では、高々一つ、あるいは僅かの時間ステップの相互作用しか捕捉することができず、多くの実世界における順序データモデル化応用で有用である可能性を秘めた高次の依存関係が無視されている。これらの課題を解決する為に、本稿では、モデル化されたデータ間の、無限長の時間依存性を必要とするエネルギー関数の仮定に基づいた、新しいCRF定式化を提案する。この新しいアプローチの基本構成は、1) 順序メモリ (sequence memorizer : SM) -- 近年提案された、無限時間依存性を持つモデル化・ラベルシーケンスの為の、非パラメトリック・ベイズ・アプローチ--と、2)モデル周辺尤度の平均場的近似 (mean-field-like approximation) -- 提案モデルに対する計算効率の良い推論アルゴリズムの導出を考慮したもの--である。このようにして得られた、無限次元 CRF (CRF∞) モデルの効率の良さを、実験により実証した。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.35, No.7


信号サブグラフを用いたグラフ分類:統計的コネクトミクスへの応用
Graph Classification Using Signal-Subgraphs: Applications in Statistical Connectomics

Joshua T. Vogelstein, Johns Hopkins University, Baltimore William Gray Roncal, Johns Hopkins University, Laurel R. Jacob Vogelstein, Johns Hopkins University, Laurel Carey E. Priebe, Johns Hopkins University, Baltimore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1539-1551 , July 2013

Keywords: Pattern analysis,Joints,Neurons,Analytical models,Brain modeling,Training,Data models,classification,Statistical inference,graph theory,network theory,structural pattern recognition,connectome

本稿では、「グラフ群と対応するクラスが与えられたとき、新しく観測されたグラフのクラスをいかにして推測するか」というグラフ分類の課題を取り上げる。この問題に対処するために、我々はグラフ/クラス・ペアの統計モデルを提案する。このモデルは、クラス間で確率的に異なるエッジ群として定義される、クラス条件付き信号(class-conditional signal)の推定器セットへと自然に拡張される。クラス条件付き信号は信号サブグラフ(signal-subgraph)とも呼ばれる。この推測器は、漸近的に最適で効率的であるものの、単一サブグラフの干渉性(coherency)に関する仮定が異なる分類器を許容する。(干渉性とは、共通する頂点の部分集合の周囲に信号エッジがくっつきあう程度のことである) シミュレーションにより、最良の推測器がモデルの干渉性だけでなく、学習サンプル数の関数でもあることを示す。これらの推測器を用いて、「神経回路の地図(脳グラフ)を性別に応じて分類できるか」という古典的な神経科学の疑問に取り組む。答えはyesである。それも、本稿で取り上げる全てのベンチマーク・アルゴリズムよりも高精度に、である。合成データの解析から、例えモデルが正確である場合であっても、比較的少数の学習サンプルしか与えられていない場合には、推測された信号サブグラフを信用すべきではない。我々は提案手法の幾つかの拡張について議論し、本稿を締めくくる。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大きな顔の向きと表情のばらつきがある条件下での3次元顔ランドマーク検出
3D Facial Landmark Detection under Large Yaw and Expression Variations

Panagiotis Perakis, University of Athens, Athens Georgios Passalis, University of Athens, Athens Theoharis Theoharis, Department of Informatics, Athens Ioannis A. Kakadiaris, University of Houston, Houston

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1552-1564 , July 2013

Keywords: Shape,Nose,Face,Indexes,Feature extraction,Eigenvalues and eigenfunctions,spin images,Face models,landmark detection,shape index

本稿では、3次元顔スキャンのための3次元ランドマーク検出手法を紹介し、詳細に評価する。提案手法の主要な成果は、自動的かつ姿勢に非依存なランドマーク検出を、(多くの場合に顔データの欠損につながる)大きな顔の向きの変動を伴う3次元顔スキャンにおいて実現すると共に、大きな表情(の変化)に対しても頑健である点にある。3次元局所形状記述子を用いてランドマーク点の候補を抽出し、3次元情報を取得する。この形状記述子には、3次元物体表面の主曲率値の連続的なマップである形状指標と、物体の3次元点分布の局所記述子であるスピン画像とを含む。ランドマーク候補は、顔の解剖学的ランドマークの顔ランドマーク・モデル(Facial Landmark Model, FLM)と照合することで識別しラベル付けする。様々な3次元顔データベースを用いて提案手法を詳細に評価し、最高難易度のデータを用いた場合であっても、従来手法を圧倒的に凌駕する最高水準の精度(平均ランドマーク位置推定誤差 4.5?6.3mm)が得られることを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


対応付け問題とグルーピング問題のための分岐限定法
A Branch-and-Bound Approach to Correspondence and Grouping Problems

Jean-Charles Bazin, CVG/CGL, ETHZ, Switzerland Hongdong Li, NICTA and Australian National University, Canberra In So Kweon, KAIST, Daejeon Cédric Demonceaux, University of Burgundy, Bourgogne Pascal Vasseur, University of Rouen, Rouen Katsushi Ikeuchi, The University of Tokyo, Tokyo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1565-1576 , July 2013

Keywords: Optimization,Feature extraction,Geometry,Computer vision,Electronic mail,Pattern matching,Educational institutions,branch-and-bound,Mixed integer programming,quadratic constraint,bilinearities,global optimization

コンピュータビジョンの世界において、未知のパラメトリックモデル下でのデータの対応付けやグルーピングは基礎的な問題である。この研究分野の最も一般的な用途は恐らく、2画像間での特徴の対応を求めることであり、我々の研究もこの用途を目的とするものである。2画像間での特徴の対応付けは、3次元復元や物体認識を含む広範なコンピュータビジョンの課題の根幹を成している。従来の特徴対応付け手法は、局所的な外観の類似度、大域的な幾何的一致度、ないしこれらの経験的な組み合わせに基づいている。これらの手法はいずれも、特に画像に反復的なテクスチャやミスマッチが存在する条件下で、満足のいく性能が得られない。本稿では、外観に基づく手法の利点と幾何学に基づく手法の利点とを組み合わせ、尚且つ数学的に大域最適が保証される新しいアルゴリズムを示す。我々のアルゴリズムは、入力として2画像から抽出された2セットの特徴群を受け取り、外観的類似度と幾何学的制約を満足し、正常値が最大数となる特徴対応を出力する。具体的には、この問題を混合整数計画問題(mixed integer program)として定式化し、分岐限定法(branch-and-bound procedure)に基づき一連の線形計画法により効率的に解く。その後、提案するフレームワークを未知のパラメトリックモデル下でのデータの対応付けやグルーピングの観点で一般化し、このフレームワークがコンピュータビジョン分野のある種の課題に適用可能であることを示す。我々のアルゴリズムの有効性を、合成データと高難易度の実画像とを用いて検証する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


移動するカメラから複数の人物を追跡するための一般化フレームワーク
A General Framework for Tracking Multiple People from a Moving Camera

Wongun Choi, University of Michigan, Ann Arbor, Ann Arbor Caroline Pantofaru, Willow Garage, Inc, Menlo Park Silvio Savarese, University of Michigan, Ann Arbor, Ann Arbor

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1577-1591 , July 2013

Keywords: Cameras,Target tracking,Detectors,Face,Skin,Trajectory,RJ-MCMC particle filtering,Multitarget tracking,person detection,people tracking

本稿では、携帯型ビジョンプラットフォームを用いてインタラクションを伴う複数の人物を追跡するための一般化フレームワークを示す。全ての軌跡を3次元座標系において頑健に計測するために、単一の首尾一貫したフレームワーク(single coherent framework)において、カメラの自己運動(ego-motion)と人物の移動経路とを推定する。追跡問題を事後確率のMAP解の導出として取り扱い、可逆ジャンプ・マルコフ連鎖モンテカルロ(Reversible Jump Markov Chain Monte Carlo, RJ-MCMC)粒子フィルタを用いて解く。提案するシステムを、移動するカメラを用いて撮影した高難易度のデータセットを用いて評価する。このデータセットには、街中の風景を撮影した屋外ビデオデータセットや、オフィスで取得した屋内のRGB-Dデータセットが含まれる。実験結果から、提案手法は動的なシーンからカメラの動作を頑健に推定でき、また独立して移動したりインタラクションを行ったりしている人々を安定して追跡できることが示される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


βダイバージェンスによる非負行列因子分解における自動適合判定
Automatic Relevance Determination in Nonnegative Matrix Factorization with the $(beta)$-Divergence

Vincent Y.F. Tan, Institute for Infocomm Research, A*STAR, Singapore and National Universityof Singapore, Singapore Cédrc Févotte, Telecom ParisTech, Paris

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1592-1605 , July 2013

Keywords: Bayesian methods,Linear programming,Cost function,Data models,Principal component analysis,Algorithm design and analysis,automatic relevance determination,Nonnegative matrix factorization,model order selection,majorization-minimization,group-sparsity

本稿では、βダイバージェンスによる非負行列因子分解(Nonnegative Matrix Factorization, NMF)において、潜在次元(latent dimensionality)を推定する課題に取り組む。βダイバージェンスは、ユークリッド平方距離、カルバック・ライブラー(Kullback-Leibler, KL)ダイバージェンス、そして板倉・斉藤(Itakura-Saito, IS)ダイバージェンスを特殊なケースとして含む、コスト関数群の一つである。モデル次元を学習することは、データの忠実性とオーバーフィッティングとの間の適切なバランスを取るために必要である。我々は、自動適合判定(Automatic Relevance Determination, ARD)に基づくベイズモデルを提案し、辞書行列の列と係数行列(activation matrix)の行とを、これらの優先度に応じて共通するスケールパラメータによって紐付ける。MAP推定のためのマジョライゼーション最小化(Majorization-Minimization, MM)アルゴリズムの一群を提案する。スケールパラメータ群の部分集合は、推論の過程で上位要素が刈り取られることで下限へと押しやられる。提案アルゴリズムの効率性と頑健性を、合成データ、スイマー・データセット、音楽を分解する事例、そして株価予測を題材とする詳細な実験により示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動画モデリングにおける動的テクスチャのクラスタリングを目的とする階層化EMアルゴリズム
Clustering Dynamic Textures with the Hierarchical EM Algorithm for Modeling Video

Adeel Mumtaz, City University of Hong Kong, Hong Kong Emanuele Coviello, University of California at San Diego, La Jolla Gert R.G. Lanckriet, University of California at San Diego, La Jolla Antoni B. Chan, City University of Hong Kong, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1606-1621 , July 2013

Keywords: Heuristic algorithms,Clustering algorithms,Computational modeling,Algorithm design and analysis,Dynamics,Kalman filters,Nickel,sensitivity analysis,Dynamic textures,expectation maximization,Kalman filter,bag of systems,video annotation

動的テクスチャ(Dynamic Texture, DT)とは、動画を線形動的システムの出力として表現する、時間と空間において定義される確率的生成モデル(probabilistic generative model)のことである。DTモデルは、動作分割、動作分類、そして動画位置合わせなどのコンピュータビジョンの様々な課題に対して適用されている。本稿では、DTモデルのクラスタリングを目的とする、階層化EM(Hierarchical EM, HEM)アルゴリズムに基づく新しいアルゴリズムを導出する。提案するクラスタリングアルゴリズムは、DT群のクラスタリングと新しいDTクラスタの中心の学習を行うことができる。DTクラスタ中心とは、DTの潜在的な生成的確率モデル(generative probabilistic model)に則った形式でクラスタ要素を代表するものである。我々は更に、離散時間カルマン平滑化フィルタの感度分析を行うための効率的な回帰アルゴリズムを導出し、HEMアルゴリズムのEステップにおいて期待値を算出する基礎として利用する。最後に、提案するクラスタリングアルゴリズムの効果(efficacy)を、動作分析の幾つかの応用用途において示す。これらの応用用途には、階層化動作クラスタリング、動作の意味的アノテーション、そして動的テクスチャ認識のためのbag-of-systems(BoS)コードブックの学習が含まれる。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


人物再識別のための色不変量
Color Invariants for Person Reidentification

Igor Kviatkovsky, Technion - Israel Institute of Technology, Techion City Amit Adam, Technion - Israel Institute of Technology, Techion City Ehud Rivlin, Technion - Israel Institute of Technology, Techion City

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1622-1634 , July 2013

Keywords: Image color analysis,Lighting,Shape,Color,Context,Cameras,color invariant signatures,Surveillance applications,person reidentification

本稿では色分布を用いる特定物体認識の課題を再考する。特定人物識別を初めとする幾つかの応用用途では、色分布が多峰性(multimodal)となる可能性が高く、従って特殊な構造を内包すると考えられる。色分布は光源条件に応じて変化するが、この構造の一部側面は不変である。我々はこの構造を分布間構造(intradistribution structure)と名付け、この構造が実用的に十分に判別的でありながら、広範な撮像条件において不変であることを示す。分布間構造を表現するために、形状コンテキスト記述子を特徴として用いる。広く用いられている対角線モデル(diagonal model)を前提に、この特徴が特定の照明変化の下で不変であることを確認する。屋内と屋外の両条件をカバーする公開データベースを用いた実験において、色情報のみを手掛りとして高いに認識性能を確認する。提案手法を近年の共分散記述子と組み合わせることで、高難易度のVIPeRデータベースとCAVIAR4REIDデータベースに対して最先端の手法を上回る性能が得られることを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


人物の動作、ゼスチャ、そして表情の教師なしグルーピングと1枚学習を目的とする動き要素の探索
Discovering Motion Primitives for Unsupervised Grouping and One-Shot Learning of Human Actions, Gestures, and Expressions

Yang Yang, University of Central Florida, Orlando Imran Saleemi, University of Central Florida, Orlando Mubarak Shah, University of Central Florida, Orlando

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1635-1648 , July 2013

Keywords: Humans,Optical imaging,Spatiotemporal phenomena,Training,Vectors,Joints,Histograms,Hidden Markov model,Human actions,one-shot learning,unsupervised clustering,gestures,facial expressions,action representation,action recognition,motion primitives,motion patterns,histogram of motion primitives,motion primitives strings

本稿では、間接で接続された複数の要素から成る人物の動作とゼスチャ、そして表情の新しい表現方法を提案する。提案手法の目的は、1)ごく少数の事例により認識の実現 (つまり、1枚ないしk枚での学習)、2)教師なしクラスタリングによる未ラベルデータセットの意味のある分類、である。4次元の空間的フローと動作フローの空間において観測されたオプティカルフローを階層化クラスタリングし、高次の部分動作または動き要素を自動的に検出することで、提案する表現方法を獲得する。bag-of-video wordsを初めとする最先端の表現方法とは異なり、提案手法は完全に教師なしにも関わらず、視覚的解釈とテクスチャラベリングに利用できる意味のある表現を実現する。各動き要素は、四肢や胴の指向性運動など微小な部分動作を描写し、4次元の混合ガウス分布として表現される。1枚やk枚での学習の用途に対しては、テスト動画において発見されたラベル要素のシーケンスをKL情報量によりラベル付けすることで文字列により代表させることができ、学習動画における類似の文字列と照合できる。同じシーケンスは、動き要素のヒストグラムに分解したり、隠れマルコフモデルの学習に用いたりすることで、各クラスを表現ために利用できる。6種類の人物の動作やゼスチャのデータセット、これらの混合データセット、そして表情のデータベースを用いて、1枚およびk枚学習による認識と教師なし動作クラスタリングに対する詳細な実験を行った。これらの実験から、提案する表現方法の妥当性と判別性を確認する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


構造化されたノイズを含む点群からの階層化オブジェクト解析
Hierarchical Object Parsing from Structured Noisy Point Clouds

Adrian Barbu, Florida State University, Tallahassee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1649-1659 , July 2013

Keywords: Shape,Principal component analysis,Computational modeling,Inference algorithms,Deformable models,Data models,Image edge detection,active shape model,Object parsing,hierarchical models,markov random field optimization

点群からのオブジェクト解析や分割は、関連するデータがオブジェクト境界や他の特徴に沿った薄い構造としてのみ存在し、尚且つ多くのノイズにより汚染されていることから、困難な課題である。このようなデータを扱うためには、オブジェクトの境界を正確に追従できる柔軟な形状モデルが必要である。動的形状モデル(active shape model)と動的外観モデル(Active Appearance Models, AAMs)など一般的なモデルはこの課題に対応するための柔軟さに欠けるが、一方で回帰的合成モデル(recursive compositional model)など近年のアプローチはモデルを簡素化することで計算可能性(computational guarantee)を確保する。本稿では、生成的条件下(generative setting)における形状と外観に対する階層化ベイズモデルを取り上げる。入力データは、隠れ主成分分析(hidden principal component analysis)形状モデルをガウス事前確率の下で変形したオブジェクト解析レイヤにおいて説明される。本稿では更に、情報に基づくデータ駆動型の提案(informed data-driven proposals)を用いて隠れ変数の局所探索を初期化する、効率的な新しい推論アルゴリズムを導入する。エッジ検出画像などの構造的な点群におけるオブジェクト解析の課題において、提案するアプローチが輝度情報を一切用いることなく2つの標準データセットにおいて最高水準の解析誤差を実現することを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高次部分最小二乗法:一般化多重線形回帰法
Higher Order Partial Least Squares (HOPLS): A Generalized Multilinear Regression Method

Qibin Zhao, Brain Science Institute, RIKEN, Wakoshi Cesar F. Caiafa, CONICET, Buenos Aires Danilo P. Mandic, Imperial College London, London Zenas C. Chao, RIKEN, Wakoshi Yasuo Nagasaka, RIKEN, Wakoshi Naotaka Fujii, RIKEN, Wakoshi Liqing Zhang, Shanghai Jiao Tong University, Shanghai Andrzej Cichocki, RIKEN BSI, Wako

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1660-1673 , July 2013

Keywords: Tensile stress,Vectors,Approximation methods,Matrix decomposition,Loading,Optimization,Data models,fusion of behavioral and neural data,Multilinear regression,partial least squares,higher order singular value decomposition,constrained block Tucker decomposition,electrocorticogram

高次部分最小二乗法(Higher Order Partial Least Squares, HOPLS)と呼ぶ、新しい一般化多重線形回帰モデル(generalized multilinear regression model)を導入し、データを潜在空間に射影して対応する潜在変数に対して回帰分析を行うことで、テンソル(多方向配列)YをテンソルXから推定する。HOPLSは他の回帰モデルとは大きく異なり、データを直交タッカーテンソル(orthogonal Tucker tensor)群の和として表現する一方で、直交負荷(orthogonal loading)の数によりモデル複雑度を制御することで過剰適合を回避する。低次元潜在空間は収縮処理を通じて順次最適化することで、XとYとの結合部分空間の最適な推定結果を得る。XとYとを独立に分解するのではなく、高次固有値分解に対して新しく定義する一般化相互共分散テンソル(generalized cross-covariance tensor)を導入することで直交負荷を最適化する。合成データと、脳皮質電図信号(electrocorticogram signal)から得られた3次元移動軌跡の実世界における復号化との双方を用いた体系的な比較により、HOPLSの従来手法に対する推定精度、少数のサンプルへの対応性、そしてノイズ耐性の観点からの優位性を示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動画からのアルベド推定と姿勢追跡の同時処理
Joint Albedo Estimation and Pose Tracking from Video

Sima Taheri, University of Maryland, College Park Aswin C. Sankaranarayanan, Rice University, Houston Rama Chellappa, University of Maryland, College Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1674-1689 , July 2013

Keywords: Face,Lighting,Estimation,Shape,Harmonic analysis,Kalman filters,Solid modeling,intrinsic image statistics,Albedo,pose tracking,spherical harmonics,sequential algorithm,Kalman filter,Rao-Blackwellized particle filter

ランバート物体のアルベドとは、変化する照明下において物体の見えに寄与する表面特性のことである。アルベドは照明条件に依存しない特徴であることから、物体認識において有用である。1画像のみを用いたアルベド推定アルゴリズムは、画像における陰影や非ランバード効果の影響を受ける。本稿において我々は、既知の3次元物体を様々な姿勢と照明条件において撮影した画像系列からアルベドを推定する、一連のアルゴリズムを提案する。まず画像系列の各フレームにおいて物体の姿勢を知る/推定することで、カルマンフィルタにより物体のアルベドを効率的に推定できることを示す。その後、姿勢の追跡と、ラオ-ブラックウェル化粒子フィルタ(Rao-Blackwellized Particle Filter, RBPF)を用いたアルベドの更新とを同時に行うことで、姿勢が未知の条件に対して拡張する。より具体的には、アルベドを事後分布からマージン化すると共に、カルマンフィルタを用いて解析的に推定する。一方で姿勢パラメータは、重点サンプリング法(importance sampling)の利用と、表面(face)の球面調和部分空間(spherical harmonic subspace)への射影誤差の最小化を通じて推定する。これにより照明条件に頑健な姿勢追跡アルゴリズムが実現できる。様々な合成画像系列や実画像系列、更には制約なしの動画からの顔認識に適用した事例の図解と実験結果を示し、提案手法の効果を確認する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


完全な組ごとの類似度の学習によるスペクトル分割
Learning Full Pairwise Affinities for Spectral Segmentation

Tae Hoon Kim, Seoul National University, Seoul Kyoung Mu Lee, Seoul National University, Seoul Sang Uk Lee, Seoul National University, Seoul

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1690-1703 , July 2013

Keywords: Image segmentation,Sparse matrices,Image color analysis,Image edge detection,Computational modeling,Nonhomogeneous media,Approximation methods,semi-supervised learning,Spectral segmentation,hierarchical segmentation,affinity estimation

コンピュータビジョンの分野において、1枚の画像を複数のまとまりのあるグループに分類することは、依然として困難な課題である。特に、与えられた画像の類似度行列のスペクトルに埋め込まれた大域的な情報を用いるスペクトル分割は、画像分割の分野における大きな潮流となっている。本稿は、スペクトル分割において、局所的なグルーピングの手掛りを統合することで得られる組ごとの類似度を、全域に渡って効率的に学習する課題に注力する。まず、各ノードが教師なし分割アルゴリズムにより得られた画素群であり過分割された領域でもある疎なマルチレイヤグラフを構築する。このグラフに半教師あり学習手法を適用することで、レイヤ内およびレイヤ間の全てのノードの組み合わせの類似度を1回の処理で推定できる。その後、これらの組ごとの類似度をスペクトル分割アルゴリズムに利用する。本稿では、K方向(K-way)分割と階層化分割の2種類のスペクトル分割アルゴリズムを導入する。提案手法は全域のコネクションを直接的に利用することで、オブジェクトの詳細を維持する高精度な分割を実現する。更に、我々の完全な類似度行列は疎行列の逆行列として定義されることから、この行列の固有値分解は効率的に計算することができる。BSDS画像データベースとMSRC画像データベースを用いた実験結果から、提案する分割アルゴリズムが従来手法と比較して妥当性と精度の観点で有効であることを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スポーツ放送の映像から選手の追跡方法と識別方法を学習する
Learning to Track and Identify Players from Broadcast Sports Videos

Wei-Lwun Lu, Google Inc., Mountain View Jo-Anne Ting, Bosch Research, Palo Alto James J. Little, University of British Columbia, Vancouver Kevin P. Murphy, Google Research, Mountain View

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1704-1716 , July 2013

Keywords: weakly supervised learning,Sports video analysis,identification,tracking

1台のパン・チルト・ズームカメラによって撮影されたスポーツ映像において、選手を追跡し識別する技術は多くの応用用途があるが、同時に困難な課題でもある。本稿ではこの困難な課題に取り組むシステムを紹介する。このシステムは複数の選手を検出して追跡する能力を有し、また動画のフレームとコートとの間の射影変換を推定すると共に、選手を識別する。識別システムは3種類の弱い視覚的な手掛りを組み合わせ、条件付き確率場(Conditional Random Field, CRF)に時間的排他制約(temporal exclusion constraint)と相互的排他制約(mutual exclusion constraint)を利用する。更に、我々は新しい線形計画緩和アルゴリズム(Linear Programming Relaxation algorithm)を提案し、動画中の選手の最良な識別結果を推定する。識別システムを訓練するために要するラベル付き学習データ数を削減するために、実況のテキスト情報(play-by-play texts)を用いた弱教師あり学習を活用する。実験結果から、追跡、射影変換推定、そして識別について良好な結果が示される。更に、実況のテキスト情報を用いた弱教師あり学習により、ラベル付き学習データ数を大幅に削減することができる。本識別システムは、弱教師あり学習においてたった200ラベルを用いることで、強教師あり学習では少なくとも20,000ラベルを要するレベルの精度を実現できる。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多様体正則化による低ランク行列推定
Low-Rank Matrix Approximation with Manifold Regularization

Zhenyue Zhang, Zhejiang University, Hangzhou Keke Zhao, Zhejiang University, Hangzhou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1717-1729 , July 2013

Keywords: Approximation methods,Sparse matrices,Manifolds,Symmetric matrices,Vectors,Matrix decomposition,Algorithm design and analysis,manifold learning,Matrix factorization,graph regularization,classification,clustering

本稿では、行列の因子分解に多様体正則化(manifold regularization)を用いる、低ランク行列の因子分解(low-rank matrix factorization)の新しいモデルを提案する。この新しい正則化モデルは大域最適で閉形式解を持つことから、グラフ正則化した非負行列の因子分解(graph-regularized nonnegative matrix factorization)よりも優れる。提案する新しいモデルを解くために、(少数の点から成るデータ向けの)直接的なアルゴリズムと、(大規模なデータ向けの)不正確な内部反復(inexact inner iteration)を持つ交互反復アルゴリズムとを提案する。収束分析により反復アルゴリズムの大域収束性が実現される。提案アルゴリズムの効率性と精度を、クラスタリングと分類に関する実世界の6つのデータセットを用いた実験により数値的に示す。既存手法との性能比較により、提案手法の一般的な低ランク(行列の)因子分解に対する有効性を示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スキャンされた文書画像の凸包を用いたノンパラメトリックな照明補正
Nonparametric Illumination Correction for Scanned Document Images via Convex Hulls

Gaofeng Meng, Institution of Automation, Beijing Shiming Xiang, Institution of Automation, Beijing Nanning Zheng, Xi'anJiaotongUniv, Xi'an Chunhong Pan, Institute of Automation, Chinese Academy of Sciences, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1730-1743 , July 2013

Keywords: Lighting,Noise,Surface treatment,Ink,Image edge detection,Text analysis,Image reconstruction,convex hull,Document image processing,illumination correction,scanning artifacts,dark border noise

書籍の見開きページをスキャンした画像には、多くの場合にスキャニングシェーディング(訳者注1)やダークボーダーノイズ(訳者注2)として知られる様々なスキャニングアーティファクトが生じる。これらのアーティファクトはスキャン画像の品質を劣化させると共に、後段の文書画像解析処理において様々な問題を引き起こす。本稿では、これらのスキャニングアーティファクトを修正する効果的な手法を提案する。提案手法は、スキャンされた多くの書籍の見開きページにおいて、シェーディングされる平面は準凹(quasi-concave)であり、一般的に文書のコンテンツは無地で明るい色の紙に印刷されている、という2つの観察結果から発想を得たものである。これらの観察結果に基づき、凸包に基づく画像再構成によりシェーディング画像を正確に抽出することができる。提案手法は画像のシェーディング補正やダークボーダーの除去に驚くほど効果的である。本手法により所望のシェーディングなし画像を復元できると共に、高品質な照明面(illumination surface)を生成できる。更に重要なことに、提案手法はノンパラメトリックな手法であることから、ユーザーインタラクションやパラメータの詳細なチューニングを必要としない。この特徴は想定する用途における非熟練者に対して特に訴求するものである。合成データと実データのスキャン文書画像を用いた詳細な実験により、提案手法の効果を示す。 (訳者注1) スキャニングシェーディング:書籍のスキャンに際して閉じ部に生じる影のこと。閉じ部はコンタクトガラスに密着しないため、照明光が届きにくいことから相対的に暗く読み取られる。 (訳者注2) ダークボーダー:書籍のスキャンに際して周辺部に生じる暗い領域(縁取り)のこと。周辺部は書籍の厚みに起因して閉じ部と同様相対的に暗く読み取られる。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


形状文法と強化学習による建物の外観解析
Parsing Facades with Shape Grammars and Reinforcement Learning

Olivier Teboul, Ecole Centrale Paris, Chatenay-Malabry Iasonas Kokkinos, Ecole Centrale Paris, Chatenay-Malabry Loic Simon, Ecole Centrale Paris, Chatenay-Malabry Panagiotis Koutsourakis, Ecole Centrale Paris, Chatenay-Malabry Nikos Paragios, Ecole Centrale Paris, Chatenay-Malabry

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1744-1756 , July 2013

Keywords: Grammar,Shape,Markov processes,Learning,Equations,Optimization,Image segmentation,Markov decision processes,Image arsing,shape grammar,reinforcement learning,semantic segmentation,data-driven exploration

本稿では、形状文法(Shape Grammars, SGs)を用いて建物の外観の解析を行い、建築学的に意味のある形でバルコニー、壁、そしてドアに分割する。我々の取り組みの主な目的は、強化学習(Reinforcement Learning, RL)手法を導入することで、この問題の計算複雑度に対処することである。RLはQ学習(Q-learning)や状態集約(state aggregation)などの技術を提供することから、外観解析を効率的に行うことができる。我々はまず、1次元解析問題(1D parsing problem)をマルコフ決定過程(Markov Decision Process)の観点から表現し、RLに基づくツールが適用できるよう道筋をつける。続いて、外観解析問題の特殊性を考慮した、2次元形状解析問題(2D shape parsing problem)のための新しい手法を開発する。具体的には、状態集約を行うことで外観における各階の対称性を担保すると共に、最適化過程においてボトムアップで画像ベースの手引きを利用するためにRLをどのように利用すればよいかを示す。パリの建物のデータセットを用いた体系的な結果を示し、最高水準の結果を従来手法よりも遥かに高速に実現できることを示す。提案手法を広範な撮影条件において検証すると共に、我々のソフトウェアと実験結果をオンラインで公開する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オープンセット認識に向けて
Toward Open Set Recognition

Walter J. Scheirer, University of Colorado at Colotado Springs, Colorado Springs Anderson de Rezende Rocha, Universidade Estadual de Campinas , Campinas Archana Sapkota, University of Colorado at Colorado Springs, Colorado Springs Terrance E. Boult, University of Colorado at Colorado Springs, Colorado Springs

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1757-1772 , July 2013

Keywords: Training,Testing,Support vector machines,Training data,Face recognition,Face,Object recognition,support vector machines,Open set recognition,1-vs-set machine,machine learning,object recognition,face verification

今日に至るまで、コンピュータビジョンの分野における機械学習に基づく認識アルゴリズムの評価実験は、ほとんど全てが訓練時に実験時のクラスが全て既知であるクローズドセット認識(closed set recognition)の形を取っている。コンピュータビジョンの応用用途におけるより現実的なシナリオは、訓練時には世界の不完全な知識が与えられ、実験時にはアルゴリズムに対して未知のクラスが入力されるオープンセット認識(open set recognition)である。本稿では、オープンセット認識の特性を調査し、その定義を制約付き最小化問題と定める。オープンセット認識問題は、強い一般化(strong generalization)を必要とすることから従来のアルゴリズムでは余り考慮されていない。この問題を解決するための第一歩として、線形カーネルの1クラスまたは二値SVMにおけるマージン距離から決定空間を削り出す、新しい1対組マシン(1-vs-set machine)を提案する。この方法論は、オープンセット認識が困難な課題となっているコンピュータビジョン分野の幾つかの応用用途(例えば物体認識や顔認証)に適用可能である。我々は例示した二つの応用用途を考慮し、Caltech 256とImageNetデータセットとを用いたデータセットをまたぐ大規模な実験と、WildデータセットのLabeled Facesに対する顔照合実験とを行う。実験結果から、従来の1クラスおよび二値SVMと比較して、オープンセット評価に適合したマシンの効果が際立つ。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


筆跡転写マッピングによる筆者適応
Writer Adaptation with Style Transfer Mapping

Xu-Yao Zhang, Institute of Automation of Chinese Academy of Sciences, Beijing Cheng-Lin Liu, Institute of Automation of Chinese Academy of Sciences, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1773-1787 , July 2013

Keywords: Prototypes,Hidden Markov models,Handwriting recognition,Accuracy,Adaptation models,Training,Context,handwriting recognition,Writer adaptation,style transfer mapping

独特の筆跡を持つ特定の筆者に対して筆者非依存な分類器(writer-independent classifier)を適応させることで、個人に最適化された手書き文字認識の精度を大幅に向上させることができる。本稿では、筆者適応のための新しい筆跡転写マッピング(Style Transfer Mapping, STM)フレームワークを提案する。STMは閉形式解を持つ筆者依存のクラス独立な特徴変換である。様々な筆者のデータはSTMの適用により筆跡非依存の空間へと射影されるため、筆者非依存の分類器に一切変更を加えることなく変換されたデータを分類することができ、従来よりも大幅に高精度化できる。STMのフレームワークは、教師あり、教師なし、そして半教師あり適応のために、様々な分類器を組み合わせることができ、筆者依存のデータはラベル付きであってもラベルなしであっても良く、更に全てのクラスを網羅している必要も無い。本稿において我々は、STMを最先端の分類器である学習ベクトル量子化(Learning Vector Quantization, LVQ)と修正二次識別関数(Modified Quadratic Discriminant Function, MQDF)と組み合わせ、大規模カテゴリの中国語手書き認識を行う。オンライン中国語手書き文字データベースCASIA-OLHWDBを用いた実験により、STMベースの適応は分類精度を向上させる上で極めて効率的で効果的であることが示される。半教師あり適応が最良の性能を示す一方で、教師なし適応は教師あり適応よりも高性能である。手書き文字データに対し、半教師あり適応による誤差低減率はLVQを用いた場合に31.96%、MQDPを用いた場合に25.00%である。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率的線形判別分析の拡張可能な定式化:顔認識への適用
A Scalable Formulation of Probabilistic Linear Discriminant Analysis:Applied to Face Recognition

Laurent El Shafey, Idiap Research Institute and Ecole Polytechnique Fédérale de Lausanne, Switzerland Chris McCool, Idiap Research Institute, Martigny Roy Wallace, Idiap Research Institute, Martigny Sébastien Marcel, Idiap Research Institute, Martigny

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 7, pp. pp. 1788-1794 , July 2013

Keywords: Training,Computational modeling,Complexity theory,Probabilistic logic,Approximation methods,Mathematical model,Face,face verification,PLDA,probablistic model,expectation maximization

本稿において我々は、確率的線形判別分析(Probabilistic Linear Discriminant Analysis, PLDA)の拡張可能で正確な解法を紹介する。PLDAは確率モデルの1種であり、顔認識と話者認識とにおいて最高水準の性能を示すことが知られている。しかし、この手法には一つ大きな欠点がある。それは、学習時に潜在変数を推定するために、識別子(クラス)に属するサンプル数の二乗に比例してサイズが増大する行列の格納と逆行列の計算とが必要となることである。今日に至るまで、この問題に対処するために2つのアプローチが取られてきた。これらは、1)この大規模行列を計算する正確な解法を用いるが、明らかにサンプル数に対する拡張性に問題があるアプローチ、又は2)この問題に対する変分近似(variational approximation)を導出するアプローチである。我々は従来のスケーラブルでない解法と理論的に等価であるスケーラブルな形式を導出することで、変分近似の必要性を取り除く。実験により、提案手法の効果を2つの側面から示す。第一に、世の中にあるラベル付きの顔画像を用い、提案するスケーラブルな実装と従来手法とが等価であることを示す。第二に、大規模なMulti-PIEデータベースを用い、提案するPLDAのスケーラブルな定式化によって可能となった、識別子(クラス)ごとにより多くの学習サンプルを用いることで性能が向上することを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.35, No.8


表現学習:レビューと新たな展望
Representation Learning: A Review and New Perspectives

Bengio, Yoshua University of Montreal, Montreal Courville, Aaron Vincent, Pascal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 8, pp. pp.1798 - 1828 , August 2013

Keywords: Boltzmann machine, Deep learning, autoencoder, feature learning, neural nets, representation learning, unsupervised learning, Abstracts, Feature extraction, Learning systems, Machine learning, Manifolds, Neural networks, Speech recognition

機械学習アルゴリズムの成功は一般的にはデータの表現に負っている。これは様々な表現がデータの背景にある変化の様々な説明要因を多少なりとも混乱させ、隠してしまうことが原因であると我々は考えている。特定のドメイン知識は、表現を設計する助けとなりうるが、一般的な事前知識に基づく学習を用いてもよい。人工知能研究こそが、このような事前知識の実装としての、より強力な表現学習アルゴリズムの設計を推進する鍵となる。本稿では教師なし特徴学習及びディープラーニング(deep learning)の最新の研究をレビューし、確率モデルの利点、自律符号化(autoencoder)、多様体学習(manifold learning)及びディープラーニング向けのネットワーク(deep network)における進展について述べる。これは、これまで長年にわたり未解決であった、表現の計算(即ち推測)、表現学習、確率密度推定、及び多様体学習の間の幾何的な接続性のための「良い表現」を学習するための適切な目的関数の設定に刺激を与えるものである。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像関連付けのための学習
Learning to Relate Images

Memisevic, Roland University of Montreal, Montreal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 8, pp. pp.1829 - 1846 , August 2013

Keywords: Learning image relations, complex cells, energy models, mapping units, spatiotemporal features, Computational modeling, Image recognition, Learning systems, Logic gates, Mathematical model, Standards, Training

動きの理解、立体視、画像に基づく距離測定(visual odometry)、不変量認識などの画像関連の多くのタスクの基本的な操作は、画像間もしくは画像と他のモダリティとの間の対応付けである。ディープラーニング法の関連性変量、時空間変量、及び双一次変量を用いて、この対応付けをデータから学習することについての関心が近年高まってきている。これらの方法は、複数の画像の間の相関パターンを表現するために、乗法的に増加する画素間のインタラクションもしくは特徴間のインタラクションを用いている。本稿では、関連性特徴学習についての最近の研究をレビューし、更に、このインタラクションが、画像間の関係性の符号化において持つ役割についての解析結果を与える。二乗プーリング(square-pooling)及び複雑セル(complex cell)モデルが、このインタラクションの表現のためにどのように解釈されるか、またそれに基づいてどのような関係性の符号化が可能かを示す。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


第一次視覚野における深い階層構造:コンピュータビジョンのために有用な知見
Deep Hierarchies in the Primate Visual Cortex: What Can We Learn for Computer Vision?

Kruger, Norbert University of Southern Denmark Janssen, Peter  Kalkan, Sinan  Lappe, Markus  Leonardis, Ales  Piater, Justus Rodriguez-Sanchez, Antonio J. Wiskott, Laurenz

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 8, pp. pp.1847 - 1871 , August 2013

Keywords: Computer vision, biological modeling, deep hierarchies, Computer vision, Neurons, Organizations, Retina, Visual systems, Visualization

第一次視覚野の計算モデル化は、オブジェクト認識、カテゴリ化、動き検知、および活動認識、もしくは画像に基づくナビゲーションや操作などのコンピュータビジョンが直面する課題のいくつかに対して何らかの知見を与えると期待されている。本稿では、第一次視覚野にあると想定されている、いくつかの機能原理および構造についてレビューし、生物学的原則の抽出とこれによるコンピュータビジョン研究の促進を図る。コンピュータビジョン関連の読者のために、神経物理学分野での最近の発見を考慮して第一次視覚野の処理階層構造の機能原理を紹介する。この階層的処理は、一連の多数のレベル(10程度)の処理により特徴づけられる。これは今日主に利用されているコンピュータビジョンシステムがフラットな構造に基づいていることと対照的である。この第一次視覚野の深い階層の機能記述により、コンピュータビジョンのアルゴリズムに対して価値ある知見が与えられると期待している。これにより生物学とコンピュータビジョンの研究間の生産的なインタラクションを促進できれば幸いである。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


不変量散乱畳みこみネットワーク
Invariant Scattering Convolution Networks

Bruna, Joan Ecole Polytechnique, Palaiseau Mallat, Stephane

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 8, pp. pp.1872 - 1886 , August 2013

Keywords: Classification, convolution networks, deformations, invariants, wavelets

ウェーブレット散乱ネットワーク(wavelet scattering network)により、画像表現の併進不変量が計算される。これは変形に対して安定であり、また識別に必要とされる高周波情報も保存される。このネットワークでは、ウェーブレット変換の畳みこみを、非線形モジュール及び平均演算子とカスケードさせている。最初のネットワーク層はSIFT形式の記述子を出力し、これに基づき次の層では、識別能を向上させる補完的不変情報を計算する。ウェーブレット散乱ネットワークの数学的解析により、識別のための深層畳みこみネットワーク(deep convolution networks)の重要な特性について説明する。安定プロセスの散乱表現により、高次モメントを考慮に入れることができ、またこれにより同一の周波数スペクトラムを持つテクスチャを区別することができるようになる。手書き数字認識及びテクスチャ判別において本手法は、ガウシアンカーネルSVMや生成的PCA識別器などの他の最新の識別方法の性能に伍する性能を持つ。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


階層たたみこみ要素解析によるディープラーニング
Deep Learning with Hierarchical Convolutional Factor Analysis

Chen, Bo Duke University, Durham Polatkan, Gungor  Sapiro, Guillermo  Blei, David  Dunson, David  Carin, Lawrence

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 8, pp. pp.1887 - 1901 , August 2013

Keywords: Bayesian, convolutional, deep learning, dictionary learning, factor analysis, Analytical models, Bayesian methods, Computational modeling, Convolution, Dictionaries, Load modeling, Mathematical model

本稿では、画像処理のための教師なし多層モデル(“deep”)を検討する。このモデルは階層化された畳みこみ要因解析構造(hierarchical convolution factor-analysis construction)を用いて表現されている。この階層依存モデルのパラメタ計算を、ギブスサンプリングと変分法的ベイズ解析(variational Bayesian analysis)を用いたベイズ設定に基づいて実装する。この解析ではこの拡張の畳みこみの特性を明示的に利用している。大規模なストリーミングデータを扱うために、VBのオンラインバージョンも開発した。各層における辞書要素の数は、与えられたデータからIndian buffet過程のβベルヌーイ実装に基づいて推測することができる。いくつかの画像処理応用についての結果例を示し、既存研究の関連するモデルとの比較を行う。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Spike-and-Slabモデルの教師なし特徴学習へのスケールアップ
Scaling Up Spike-and-Slab Models for Unsupervised Feature Learning

Goodfellow, Ian J. Universit? de Montr?al, Montr?al Courville, Aaron  Bengio, Yoshua

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 8, pp. pp.1902 - 1914 , August 2013

Keywords: Neural nets, computer vision, pattern recognition, Approximation methods, Data models, Encoding, Feature extraction, Slabs, Training, Vectors

本稿では、実数値データのモデル化のための2つのspike-and-slabモデルを、特にそのオブジェクト認識への応用についてフォーカスして説明する。第一のモデルは、我々がspike-and-slabスパースコーディング(spike-and-slab sparse coding: S3C)と呼称するもので、本稿でより高速な近似推論アルゴリズムを導入するベースとなる既存手法である。我々が、「部分的に方位性のある深層ボルツマンマシン(partially directed deep Boltzmann machine: PD-DBM)」と呼ぶ、S3Cの深層変数(deep variant)を導入し、S3C推論アルゴリズムをこのPD-DBMに対して利用できるように拡張する。この時の学習の各過程について説明を加える。我々のS3Cのための推論方法により、これまでに例のないような大規模なサイズの課題への拡張と適用が可能となり、S3Cを特徴抽出器として利用することにより、特にラベル付き事例の数が少ない場合に非常に高性能なオブジェクト認識を実現することができることが示される。深層構造を持たない他の方法に比べ、PD-DBMがより良い事例を生成できること、およびDBMやDBNと異なり、PD-DBMは貪欲法による層毎の訓練課程を用いることなく訓練することができることを示す。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


シーンラべリングのための階層的特徴の学習
Learning Hierarchical Features for Scene Labeling

Farabet, Clement New York University, New York and Universite Paris-Est, Paris Couprie, Camille Najman, Laurent  LeCun, Yann

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 8, pp. pp.1915 - 1929 , August 2013

Keywords: Convolutional networks, deep learning, image classification, image segmentation, scene parsing, Accuracy, Context, Feature extraction, Image edge detection, Image segmentation, Labeling, Vectors

シーンラべリングは、画像中の各画素を、その属するオブジェクトカテゴリによってレベル付けする過程である。原画像の画素値を用いて訓練した複数階層の畳み込みネットワークを用いた方法を提案する。この方法は密な特徴ベクトルを抽出し、これにより各画素を中心とする複数サイズの領域を符号化する。また、本手法は、人為的な特徴(engineered features)の必要性を低減し、テクスチャ、形状、およびコンテキスト情報を表現する強力な手段となりうる。最終的なラベル情報を生成するための、複数の後処理方法についても結果を報告する。分割結果の集合から与えられたシーンを最も良く説明する最適なコンポーネントの組み合わせを自動的に検索する手法を提案する。これらのコンポーネントは任意のものであり、例えばこれらは分割ツリーから取得することもできるし、過分割の結果から取得することもできる。このシステムは、他の手法とはけた違いに高速であるにもかかわらず、SIFT Flowデータセット(33クラス)及びBarcelonaデータセット(170クラス)について、他の手法との比較で最良の精度を与え、またStanford backgroundデータセット(8クラス)では、最良の方法に近い精度が得られた。本システムの高速性として例えば320x240の画像ラベリングを特徴抽出を含め1秒以内に完了することができる。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


4次元患者データを用いたパイロットスタディにおける、教師なし特徴学習及び複数の臓器検出のための、スタック付き自己符号器(autoencoder)
Stacked Autoencoders for Unsupervised Feature Learning and Multiple Organ Detection in a Pilot Study Using 4D Patient Data

Shin, Hoo-Chang Institute of Cancer Rearch Royal Marsden NHS Foundation Trust, Sutton Sutton Orton, Matthew R. Collins, David J. Doran, Simon J.  Leach, Martin O.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 8, pp. pp.1930 - 1943 , August 2013

Keywords: Edge and feature detection, biomedical image processing, machine learning, object recognition, pixel classification, Feature extraction, Liver, Machine learning, Medical diagnostic imaging, Training, Visualization

人工知能において医療画像解析は未だ困難なアプリケーション分野である。この分野で機械学習を導入する場合、教師付き学習で必要とされる正解ラベル情報を取得することは、機械学習の他の一般的なアプリケーションよりも遥かに困難である。これは特に異常値を含むようなデータセットの場合に顕著で、たとえばこのようなデータセット中の組織のタイプや臓器の形状は大きく変化してしまう。自動診断、自動放射線療法計画、医療画像検索などの実際の応用では、診断対象の組織についてのより多くの情報を与える新たなマルチモーダル医療画像が求められており、このような異常値を含むデータセットにおける臓器検出は、大きな可能性を秘めている。本稿では、MRI画像における臓器同定のためのdeep learning法の応用について検証する。これには、識別器に対して弱度の教師付き学習のみが必要な、ラベルなしマルチモーダルDCE-MRIデータセットからのオブジェクトクラスのカテゴリ化のための、画像および時間変化についての階層的特徴の学習を用いる。このdeep learningモデルを用いて学習された特徴を用いて、確率的なパッチに基づく方法を用いて複数の臓器検出を行う。これにより、正確にラベル付けされた訓練データセットのライブラリが入手しづらい状況下においても、また、患者データセットが本質的な異常性を持つ場合においても、deep learningモデルの医療画像への応用が有望であることが示される。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テンソル深層スタックネットワーク(Tensor Deep Stacking Network)
Tensor Deep Stacking Networks

Hutchinson, Brian University of Washington, Seattle Deng, Li Yu, Dong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 8, pp. pp.1944 - 1957 , August 2013

Keywords: Deep learning, MNIST, TIMIT, WSJ, bilinear models, handwriting image classification, phone classification and recognition, stacking networks, tensor, Closed-form solutions, Computer architecture, Machine learning, Stacking, Tensile stress, Training, Vectors

新たな深層アーキテクチャ(deep architecture)である、テンソル深層スタックネットワーク(tensor deep stacking network: T-DSN)を紹介する。このT-DSNは複数のスタックされたブロックから構成されており、このブロックはそれぞれ二つの隠れ層から出力層への双一次マッピングを含む。隠れ層の二値特徴の高次統計量を利用するために、重みテンソルを用いてこのマッピングを行う。本研究で開発したT-DSNの重み行列およびテンソルのための学習アルゴリズムを解説する。主なパラメタ推定は、閉形式の凸部分問題として扱うことができる。効率的かつ拡張性のあるCPUクラスタ向けの並列実装により、T-DSNの組みを3つのポピュラーなタスクについてデータサイズ順に訓練する。すなわちMNIST(データサイズ60k)を用いた手書き数字認識、TIMIT(1.1m)を用いた孤立状態/電話識別、連続電話認識、更にWSJ0(5.2m)を用いた孤立電話識別の3つのタスクである。これら3タスクにおける実験結果はいずれも、T-DSNと利用した学習方法の効果を整合的に示している。特に、T-DSNの充分な深さ、T-DSNブロックにおける2つの隠れ層構造の対称性、我々のモデルのパラメタ学習アルゴリズム、およびT-DSNの上部にあるsoftmax層、これらすべてが低いエラー率に対して貢献していることが示される。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


階層的深層モデルによる学習
Learning with Hierarchical-Deep Models

Salakhutdinov, Ruslan University of Toronto, Toronto Tenenbaum, Joshua B. Torralba, Antonio

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 8, pp. pp.1958 - 1971 , August 2013

Keywords: Deep networks, deep Boltzmann machines, hierarchical Bayesian models, one-shot learning, Approximation methods, Bayesian methods, Computational modeling, Machine learning, Stochastic processes, Training, Vectors

本稿では、階層的深層(Hierarchical-Deep: HD)モデルを紹介する。これはディープラーニングモデルを構造化階層ベイジアン(Hierarchical Bayesian)モデルと組み合わせた新しい構成的学習アーキテクチャである。特に本稿では、深層ボルツマンマシン(deep Boltzmann machine: DBM)において、最上位の特徴に対してこのアーキテクチャを用いた場合の、階層的ディリクレ過程(hierarchical Dirichlet Process: HDP)の事前確率の学習方法について紹介する。これによりHDP-DBMモデルを用いて、極少数の訓練データから新しいコンセプトを学習する方法を学習することができる。これらの特徴としては、低レベルの生成的特徴、これらの低レベル特徴間の相関をとらえるための高レベルの特徴、そしてコンセプトの種類により変化することが多い、高レベル特徴の事前確率を共有するための階層化されたカテゴリがある。HDP-DBMモデルのための効率的な学習および推測アルゴリズムを紹介し、CIFAR-100データベースからの極少数のデータから新しいコンセプトを学習することが可能であることを示す。上記データベースは、オブジェクト認識、人間のモーションキャプチャーのためのデータセットを含む。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


リーマン多様体上での人物の特徴付け
Characterizing Humans on Riemannian Manifolds

Tosato, Diego University of Verona, Verona Spera, Mauro Cristani, Marco Murino, Vittorio

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 8, pp. pp.1972 - 1984 , August 2013

Keywords: Pedestrian characterization, Riemannian manifolds, covariance descriptors, Covariance matrix, Estimation, Head, Humans, Magnetic heads, Manifolds, Symmetric matrices

監視応用において、人物の頭と体の向きは、多くの挙動特徴を評価するための最も重要な特徴である。しかし残念なことに、このコンテキストにおいて、人物はしばしばノイズを含む僅かな画素によって符号化されているために、その特徴付けが困難になっている。この課題に取り組むにあたって、我々は、表現力に富む既述子である特徴量の共分散に基づく計算論的フレームワークを提案する。共分散は、歩行者検出目的のために用いられてきた、実質的にはリーマン多様体上の2値分類問題である。本稿では、重み付き共分散配列(weighted array of covariance)と名付けた新たな既述子による多値分類への拡張方法を示す。これは、特に小さな画像表現を扱うのに適している。本拡張は、複数の共分散配列が、標準的な機械学習が適用できる単一の接空間に投影されるような、新たな微分幾何的アプローチを必要としている。ここでは特に、多様体上の実際の距離(測地的距離)を接空間上で近似する非常に効果的な手段として、Cammpbell-Baker-Hausdorff 展開を採用した。本手法を複数のベンチマーク・データセットと、新しく提案したテストセット上で評価し、全てのケースで信頼の得られる結果を得た。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


分光シグネチャによるグラフ同形およびグラフ自己同形
Graph Isomorphisms and Automorphisms via Spectral Signatures

Raviv, Dan Technion, Israel Institute of Technology, Haifa Kimmel, Ron Bruckstein, Alfred M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 8, pp. pp.1985 - 1993 , August 2013

Keywords: Graph isomorphism, graph Laplacian, graph automorphisms, graph symmetries, heat kernel maps, heat kernel signatures, Complexity theory, Eigenvalues and eigenfunctions, Equations, Heating, Kernel, Laplace equations, Shape

二つのグラフ間の同型写像は、それらの頂点集合の間の接続関係を保存する全単射である。このような二つのグラフ間の同型写像あるいは、あるグラフからそれ自身への同型(自己同型)写像を見つけることは、応用科学において非常に重要である。この問題に内在する計算上の複雑さは、まだ良く知られてはいない。ここでは、そのような写像を計算する効果的な手法としてグラフ・ラプラシアンに関する熱核(heat kernel)を用いた手法を紹介する。これは本質的に組合せの問題であるが、実際には、頂点の個数に関する多項式時間で実験を行う。本提案手法が、様々なグラフを扱うことが可能であり、種々の重要な例において、最新パッケージに対して十分な競争力を有していることを示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パン-チルト-ズーム カメラ校正保持
Keeping a Pan-Tilt-Zoom Camera Calibrated

Wu, Ziyan Rensselaer Polytechnic Institute, Troy Radke, Richard J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 8, pp. pp.1994 - 2007 , August 2013

Keywords: Pan-tilt-zoom, calibration, dynamic correction, Calibration, Cameras, Computational modeling, Heuristic algorithms, Lenses, Surveillance

パン-チルト-ズーム(pan-tilt-zoom : PTZ)カメラは、現代の監視システムに広く用いられている。しかしながら、PTZカメラから得られる(パン、チルト)座標系の精度が、長時間の動作の後に低下するために、その精度に依存しているトラッキングと3D位置決めアルゴリズムを危うくしていることを我々は明らかにした。この問題を解決するために、ここでは、PTZカメラに対して完全なモデルを提案する。それは、どのように焦点距離とレンズ歪みが変化するかを拡大率の関数として、陽に反映するものである。本稿では、このモデルのパラメータが、非線形最適化に続く単純な初期化ステップからなる一連の処理により、如何に素早く正確に推定できるかを示す。本手法は、正確な校正結果を得るために、10枚の画像だけを必要とする。次に、どのようにして、この校正パラメータが、ワンショット動的補正処理により保守できるのかを示す。このことは、数百時間の動作の後であっても、(パン、チルト、ズーム)で与えられるユーザ要求に対して、いつでも、カメラが同一の視野を返すことを確かなものとする。この動的校正アルゴリズムは、PTZカメラが設置された時に構築された、特徴辞書に蓄積された特徴量に対する現在画像のマッチングに基づいている。この校正と動的補正アルゴリズムを、実験用データセットと、実世界データセットの双方で評価することにより、本手法の効果を示した。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


統計的木形状解析理論に向けて
Toward a Theory of Statistical Tree-Shape Analysis

Feragen, Aasa University of Copenhagen, Copenhagen Lo, Pechin de Bruijne, Marleen Nielsen, Mads Lauze, Francois

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 8, pp. pp.2008 - 2021 , August 2013

Keywords: Trees, anatomical structure, geometry, graph models, pattern matching, pattern recognition, shape, tree metric, Binary trees, Geometry, Measurement, Phylogeny, Shape, Statistical analysis, Topology

木構造をもつ形状の統計的手法を開発する為に、木形状のための形状空間のフレームワークを構築し、その形状空間上の距離の研究を行なった。この形状空間は、表現された木における位相的推移に関連する特異性を有している。我々は、二つの密接に関連した形状空間上の距離であるTEDとQEDの研究を行なっている。QED (quotient euclidean distance) は、形状空間の定式化から自然に導かれるユークリッド距離の商であり、一方のTEDは古典的な木の編集距離 (tree edit distance) である。本稿では、グロモフの計量幾何を用いることによって、これらのTEDやQEDにより定義される距離に新たな洞察を加える。ここでは、統計解析に必要とされるこの新しい計量QEDが、良好な幾何学的特性 -- 測地線が常に存在し、それが一般的に局所的に唯一 -- を有していることを示す。これに従えば、QEDに対する平均木 (average trees) の存在と、一般的局所唯一性も示される。一方TEDは、幾つかのアルゴリズム上の利点を有するものの、先の利点は共有されない。本稿では、理論的枠組に従って、合成データ木と、肺のCTスキャンによる小さな気道木上の実験的な概念検証実験結果を示す。これにより、我々のフレームワークが、統計的木構造解析の理論を構築する上で必要となる理論的、定性的性質を保証することを明らかにする。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


RANSAC (random sample consensus) のための一般的フレームワーク
USAC: A Universal Framework for Random Sample Consensus

Raguram, Rahul University of North Carolina at Chapel Hill, Chapel Hill Chum, Ondrej Pollefeys, Marc Matas, Jiri Frahm, Jan-Michael

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 8, pp. pp.2022 - 2038 , August 2013

Keywords: RANSAC, robust estimation, Algorithm design and analysis, Computational modeling, Context, Data models, Estimation, Robustness, Standards

コンピュータビジョンにしばしば生じる計算上の問題は、ノイズや、はずれ値で汚れたデータからのモデルパラメータ推定である。さらに一般的には、ノイズを含むデータから定量的な値を検出するような、いかなる実用的システムも、その核となる部分に汚染データに関する同じ手段を備えていなければならない。RANSACは、頑健な推定のための最も良く知られたアルゴリズムの一つである。近年、この領域の爆発的活性化により、基礎となるRANSACを高効率で頑健なものとする数々の技術開発が促進された。本稿では、何年にも渡って調査してきた様々なアプローチの分析と比較により、RANSACに基づく頑健推定に関する近年の研究について、広範な概要を紹介する。また、USAC (Universal RANSAC) と名付けた頑健推定のための新しいフレームワークを導入することにより、この分析の為の共通のコンテキストを用意した。USACは、標準的RANSACの推定-検証構造のシンプルな拡張であり、多くの重要な、実践的で計算技術的な知見を融合する。加えて、さまざまなモジュールを最新のアルゴリズムで強化したUSACフレームワークを備える汎用の C++ ソフトウエアライブラリも提供した。本実装では、このようにして単一の統合パッケージに組み込まれている標準的なRANSACの多くの制限に、取り組んでいる。我々は、このアルゴリズムの性能を、推定問題の大規模なコレクション上でベンチマークを行なった。ここで提供した実装は、頑健推定のための独立したツールや、新しい技法を評価するためのベンチマークとして研究者が利用することができる。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


文書画像修復のための高速アルゴリズム(A Fast Algorithm for Document Image Rstoration : FAIR)
FAIR: A Fast Algorithm for Document Image Restoration

Lelore, Thibault Southern University of Toulon-Var, France Bouchara, Frederic

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 8, pp. pp.2039 - 2048 , August 2013

Keywords: Image enhancement, image edge detection, image processing, image restoration, image segmentation, Algorithm design and analysis, Computational modeling, Estimation, Image edge detection, Labeling, Noise, Robustness

本稿では、文書画像修復のための高速アルゴリズムであるFAIRアルゴリズムを提示する。このアルゴリズムは様々なコンテストに提示され、最新のアルゴリズムとの比較において良好な性能を示してきたものである。さらに、本手法はスケール不変で、実時間応用に適用できるほど十分高速である。本手法は、ノイズに対する頑健性を残したまま、詳細検出することを可能とする二重閾値エッジ検出アプローチに基づいている。提案手法の性能評価を、多量の背景ノイズ、あるいはコントラストや照明変動のある幾つかのタイプの劣化文書画像上で行った。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.35, No.9


多変量性能指標のための特徴選択法
A Feature Selection Method for Multivariate Performance Measures

Mao, Qi Nanyang Technological University, Singapore Tsang, Ivor Wai-Hung

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2051 - 2063 , September 2013

Keywords: Feature selection, multi-instance learning, multiple kernel learning, performance measure, structural SVMs, Convergence, Error analysis, Kernel, Loss measurement, Optimization, Support vector machines, Vectors

特定の多変量性能指標を用いた特徴選択は、画像検索や文字分類など多くの用途における成功の鍵となる。既存の特徴選択手法は分類誤差の評価を目的に設計されている。本稿において我々は、汎化スパース正則項(generalized sparse regularizer)を提案する。提案する正則化項に基づき、一般的な損失関数のための統合特徴選択フレームワークを提示する。我々は特に、多変量性能指標を最適化する新しい特徴選択パラダイムに取り組む。得られた定式化は高次データに適用することは困難である。このため、この問題を解くために二層切除平面法(two-layer cutting plane algorithm)を提案し、その収束性を示す。これに加え、提案手法を多事例学習問題(multiple-instance learning problem)の多変量指標を最適化する課題に適用する。最先端の特徴選択手法との比較分析から、提案手法が他の手法を凌駕することが示される。大規模な多次元実世界データセットを用いた詳細な実験により、少数の特徴のサブセットを選択する課題において提案手法がL1-SVMやSVM-RFEを凌駕することが示される。また、F1スコアの観点でSVMperlを大幅に上回る性能を達成する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


クラス固有情報の画像パターンへの付与と取得のための相関フィルタを用いたフレームワーク
A Framework for Binding and Retrieving Class-Specific Information to and from Image Patterns Using Correlation Filters

Boddeti, Vishnu Naresh Carnegie Mellon University, Pittsburgh Kumar, B.V.K.Vijaya

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2064 - 2077 , September 2013

Keywords: Biometric security, biometric key-binding, correlation filters, face recognition, palmprint recognition

我々は、画像パターンのセットに対してクラス固有の情報を付与すると共に、テンプレートと同じクラスのクエリパターンとを照合することでその情報を検索する、テンプレートベースのフレームワークについて説明する。これは、相関フィルタの特性を利用し、クラス固有の情報を、テンプレートを設計するのに用いられる画像パターンのセットに対して適用される空間並進(spatial translation)のセットと対応付けることにより実現される。付与された情報は、正しいクエリと照合する過程で、テンプレートの設計に用いられた画像に適用された空間並進を推定することで取得される。本稿において我々は、提案するフレームワークの応用用途の一つである生体情報に情報を付与する課題に注目する。提案するフレームワークは、この情報を複数のパターンクラスに付与できる柔軟性を持ち、生体認証キーの付与という観点で、多クラスで多様な生体認証キーの付与を実現する。提案する枠組みの有効性を、複数の生体情報データベースを用いた詳細な数値シミュレーション結果により示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


A Rank-Based Approach to Active Diagnosis
A Rank-Based Approach to Active Diagnosis

Bellala, Gowtham University of Michigan, Ann Arbor Stanley, Jason Bhavnani, Suresh K. Scott, Clayton

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2078 - 2090 , September 2013

Keywords: Active diagnosis, Bayesian network, active learning, area under the ROC curve, persistent noise, Approximation methods, Computer networks, Diseases, Entropy, Fault diagnosis, Noise, Noise measurement

能動診断の問題は、複数の物体の二値状態(binary state)を高速に識別することを目的とする幾つかの応用用途において生じる。この応用用途の例としては、病理診断やコンピュータネットワークにおける故障診断などが挙げられる。二値状態の判断は、二値クエリに対するノイズを含む可能性のある応答を、連続的に選択し、観察することで行われる。この分野における先行研究では、情報ゲインに基づいて連続的にクエリを選択し、MAP推定により物体の状態を推測する。本研究では、MAP推定ではなく、事後故障確率(posterior fault probability)に応じて物体を順位付けすることを目的とする。我々は、クエリの選択を、ランク付けしたリストに対応するROC曲線下の面積を最大化することで連続的に行う貪欲法を提案する。提案手法は既存手法の限界を克服する。提案手法は確率伝播を用いないことから、複数の故障が存在したとしても問題なく、大規模なネットワークに対しても僅かな性能の低下で対応することができる。単一の故障のみが存在する場合、提案手法はクエリの潜在的なノイズ分布に関する事前知識なしで実装することができるため、ノイズパラメータの設定ミスに対して頑健である。コンピュータネットワーク、有害化学薬品データベース、そして合成データセットを用いた実験により提案手法の性能を示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


平滑カメラモデルの校正
Calibration of Smooth Camera Models

Miraldo, Pedro University of Coimbra, Coimbra Araujo, Helder

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2091 - 2103 , September 2013

Keywords: General camera models, camera calibration, smooth vector-valued functions, Calibration, Cameras, Estimation, Mathematical model, Solid modeling, Vectors

一般化撮像モデル(generic imaging model)を用いることで、あらゆるカメラを表現することができる。既存の一般化モデルは離散的であり、画像中の各画素と三次元空間における一本の直線との対応付けを定義している。本稿では、一般化カメラモデルの改定し、校正手続を簡略化するモデルを提案する。提案手法の唯一の前提条件は、三次元の投射線(projecting line)の座標が、空間的に極めて平滑な関数によって対応付けられていることである。このようなモデルは、画像の座標や三次元線を放射基底関数(Radial Basis Function, RBF)によって補間するよう、一般化撮像モデルを更新することで実現される。これにより、(連続的な特性に起因する)解像度の向上と、更にコンパクトな表現が可能となる。この一般化撮像モデルの派生形を用い、我々は校正手続も考案する。この手続では、三次元点と各画素とが対応付いているだけでよい。加えて、全ての画素を校正する必要はない。この結果、手続の複雑度は劇的に低減される。画像と三次元点の両方の座標が正規化されることで、校正の精度が向上する。合成データセットと実データセットとを用いた実験結果から、提案するモデルと校正手続は容易に利用できると共に高精度な校正結果を得られることが示される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


重複ありgroup Lassoのための効率的なモデル
Efficient Methods for Overlapping Group Lasso

Yuan, Lei Arizona State University, Tempe Liu, Jun Ye, Jieping

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2104 - 2116 , September 2013

Keywords: Sparse learning, difference of convex programming, overlapping group Lasso, proximal operator, Acceleration, Algorithm design and analysis, Convergence, Convex functions, Indexes, Optimization, Silicon

group Lassoは、(事前に定義された)グループ間で重複のない特徴グループに対する特徴選択に用いるLassoの拡張である。重複のないグループ構造という制約から、実用性は制限される。近年、幾つかの研究において、グループ間の重複を伴う特徴グループに適用可能な、より一般的な定式化を行う試みが成されている。しかし、グループ間の重複に伴い、最終的な最適化問題を解くことはより困難となる。本稿において我々は、ペナルティ付き重複ありgroup Lasso問題を効率的に最適化する課題に取り組む。我々は、重複ありgroup Lassoと関連する近位演算子(proximal operator)の鍵となる様々な特性を開示する。そして、最適化過程で勾配降下法に類するアルゴリズムを利用できる、平滑で凸な双対問題(smooth and convex dual problem)を解くことで、近位演算子を計算する。提案手法と理論的結果を一般化し、Lqノルムに基づく一般的な重複ありgroup Lasso最適化問題に対処する。我々は提案手法を更に拡張し、キャップ付きノルム正則化(capped norm regularization)を用いて凸ペナルティ(convex penalty)により組み込まれた推測バイアス(estimation bias)を低減することで、非凸な重複ありgroup Lasso最適化問題を解く。合成データベースと乳癌遺伝子発現データベースとを用いた実験を行う。 後者は、8,141種の遺伝子を(重複のある)遺伝子セットに振り分けたものである。実験結果から、提案手法は既存の最先端の手法よりも効率的であることが示される。この結果は更に、重複ありgroup Lassoを非凸最適化問題として定式化することの有効性も証明する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


切断核型ノルム正則化を通じた高速で高精度な行列補完
Fast and Accurate Matrix Completion via Truncated Nuclear Norm Regularization

Hu, Yao Zhejiang University, Hangzhou Zhang, Debing Ye, Jieping Li, Xuelong He, Xiaofei

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2117 - 2130 , September 2013

Keywords: Matrix completion, accelerated proximal gradient method, alternating direction method of multipliers, nuclear norm minimization, Acceleration, Approximation methods, Computer vision, Convergence, Matrix decomposition, Minimization, Optimization

大規模な行列をその小規模な部分行列から復元する課題は、画像修復(image inpainting)や推薦システム(recommender system)を初めとする様々な実用途において生じる、非常に困難な課題である。多くの既存手法は、この問題を一般的な低ランク行列推定問題として定式化する。ランク演算子は非凸で不連続であるため、近年の理論的研究の大多数は凸緩和のために核型ノルムを用いている。核型ノルム最小化を用いた既存手法の一つの大きな制約は、固有値が同時に最小化されるため、実用に際してランクが十分な精度で推定できない可能性があることである。本稿において我々は、切断核型ノルム(Truncated Nuclear Norm, TNN)を用いることで行列のランクをより高精度に推定することを提案する。切断核型ノルムは、大きいほうから少数の固有値の和を核型ノルムから減じることで与えられる。これに加え、我々は切断核型ノルムを最小化することで行列補完(matrix completion)を行う新しいアルゴリズムを考案する。我々は更に、最適化問題を解くための3種類の効率的な反復手順を考案する。これらはTNNR-ADMM、TNNR-APGL、並びにTNNR-ADMMAPである。TNNR-ADMMは交互方向乗数法(Alternating Direction Method of Multipliers, ADMM)を利用し、TNNR-AGPLは最終的な最適化に高速近位勾配線(Accelerated Proximal Gradient Line, AGPL)検索法を適用する。TNNR-ADMMAPにおいて、我々はADMMに対する新しい更新則に基づく動的なペナルティ(Adaptive Penalty, AP)を活用し、高い収束効率を実現する。我々の実証的研究から、合成データセットと実画像データセットの両方において、提案手法は最先端の行列補完アルゴリズムと比較して有望な結果が得られることが示される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


反復的な拡大と縮小を用いた密な部分グラフの高速検出
Fast Detection of Dense Subgraphs with Iterative Shrinking and Expansion

Liu, Hairong National University of Singapore, Singapore Latecki, Longin Jan Yan, Shuicheng

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2131 - 2142 , September 2013

Keywords: Dense subgraph, cluster analysis, correspondence, maximum common subgraph, point set matching, Algorithm design and analysis, Clustering algorithms, Heuristic algorithms, Indexes, Noise, Robustness, Vectors

本稿において我々は、重み付きグラフの密な部分グラフ(dense subgraph)を効率的に検出するアルゴリズムを提案する。拡大縮小アルゴリズム(Shrinking and Expansion Algorithm, SEA)と呼ぶ提案アルゴリズムは、収束するまで拡大フェーズと縮小フェーズとの2つのフェーズを反復する。拡大フェーズでは、その時点の部分グラフにおける各頂点と部分グラフとの親和性(affinity)に基づき、最も関連性の高い頂点を追加する。縮小フェーズでは、その時点の部分グラフにおける組ごとの関連性を考慮し、その頂点と他の頂点との平均親和性が、最終的に得られる部分グラフの平均親和性よりも低い頂点を除去する。両フェーズにおいて、SEAは小さな部分グラフに作用することから非常に効率的である。グラフの各頂点に対してSEAを作用させることで、極めて密な部分グラフが頑健に抽出される。我々はSEAを2つの異なる応用用途、具体的には対応問題の解決とクラスタ分析とを用いて評価する。理論的解析と実験結果から、特にエッジ重みに多くのノイズが存在する状況において、SEAが極めて効率的で頑健であることが示される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


FOCUSR:スペクトル正則化を用いた特徴指向の対応関係 - 高精度な表面整合の一手法
FOCUSR: Feature Oriented Correspondence Using Spectral Regularization--A Method for Precise Surface Matching

Lombaert, Herve McGill University, Montreal Grady, Leo Polimeni, Jonathan R. Cheriet, Farida

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2143 - 2160 , September 2013

Keywords: Registration, graph theory, spectral methods, surface fitting, Brain, Computational modeling, Harmonic analysis, Laplace equations, Shape, Spectral analysis, Surface treatment

表面整合(surface matching)の既存手法は、精度と計算効率とのトレードオフにより制約を受ける。本稿において我々は、密な頂点間の対応関係を求めるための新しいアルゴリズムを提示する。このアルゴリズムでは、表面上に定義された特徴を直接照合すると共に、正則項にスペクトル対応(spectral correspondence)を用いることで性能を向上させる。提案アルゴリズムは特徴照合とスペクトル照合の高速性を持ちながら、(距離誤差で1.4%という)従来よりも遥かに高い精度を実現する。FOCUSR(Feature Oriented Correspondence Using Spectral Regularization)は、対応関係を計算する上で先述の特徴を暗黙のうちに導入しており、特徴を空間的に正則化する上で、グラフ・ラプラシアンにおいて最低周波域高調波(lowest-frequency harmonics)が平坦であるという性質に依存している。FOCUSRは最も単純な形式では、スペクトル埋め込みを非剛体変形する、スペクトル対応付けの改良手法である。本稿では、いかなる特徴であってもグラフ・エッジの重みに付加情報として利用できるだけなく、グラフ・ノードに追加の埋め込み座標として利用できる、完全なスペクトル対応付けの実現方法を示す。一例として、複数の個人間での脳表面整合という困難な課題を用いた現実的なシナリオにより、FOCUSRの実力を証明する。実験結果から、スペクトル埋め込みにおいて特徴を組み合わせ、それら正則化することで、従来手法よりも位置合わせ精度を大幅に向上すると共に、高速化も実現することが示される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Jensen-Bregman LogDetダイバージェンスの共分散行列の効率的な類似性探索への応用
Jensen-Bregman LogDet Divergence with Application to Efficient Similarity Search for Covariance Matrices

Cherian, Anoop University of Minnesota, Minneapolis Sra, Suvrit Banerjee, Arindam Papanikolopoulos, Nikolaos

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2161 - 2174 , September 2013

Keywords: Bregman divergence, LogDet divergence, Region covariance descriptors, activity recognition, image search, nearest neighbor search, video surveillance, Computer vision, Covariance matrix, Eigenvalues and eigenfunctions, Manifolds, Measurement, Standards, Symmetric matrices

共分散行列は、行動認識、映像監視(visual surveillance)、そして拡散テンソル画像(diffusion tensor imaging)を含む幾つかのコンピュータビジョンの応用用途において頻繁に利用されている。この理由は、共分散行列は複数の特徴をコンパクトに統合するために容易なプラットフォームを提供するためである。これらの応用用途における重要な課題は、二つの共分散行列を類似度(または相違度)関数により比較することである。この関数として多くの場合には、これらの行列が存在する多様体上のリーマン計量(Riemannian metric)が選択される。リーマン多様体が平坦でないことから、相違度には多様体の曲率を考慮すべきである。この結果、距離計算は時間を要する傾向にあり、この傾向は特に行列が高次元であったり勾配を必要としたりする場合に顕著である。更に、昨今のビッグデータ解析時代においては、効率的な最近傍探索を実現するのに適した計量(metric)を用いることが重要な要件となる。このような問題を緩和するために、本稿ではJensen-Bregman LogDetダイバージェンス(Jensen-Bregman LogDet Divergence, JBLD)と呼ばれる、共分散行列の新しい相違度尺度を提案する。このダイバージェンスは幾つかの望ましい理論的性質を持ち、(標準的な尺度と比較すると)計算コストが低い。JBLDの平方根が計量である性質を利用し、大規模な共分散データセットに対する、メトリック木データ構造(metric tree data structure)を用いた効率的な最近傍探索に取り組む。この目的を達するため、我々はJBLDに対するK平均クラスタリングアルゴリズムを提案する。幾つかのコンピュータビジョン分野の応用用途から得た共分散データセットに対し、JBDLが極めて高性能であることを証明する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


K最近傍マッティング
KNN Matting

Chen, Qifeng Stanford University, Palo Alto Li, Dingzeyu Tang, Chi-Keung

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2175 - 2188 , September 2013

Keywords: Natural image matting, layer extraction, Image color analysis, Image segmentation, Kernel, Laplace equations, Materials, Mathematical model, Vectors

本稿では、複数の画像レイヤを同時抽出するために、非局在原理(nonlocal principle)を一般的なアルファ・マッティングに適用することを提案する。各レイヤは自然画像マッティングの前景領域(foreground matte)において典型的な、連続的な部分だけでなく不連続的な部分を持つ場合がある。提案手法は非局在型マッティングであるため、局所カラーラインモデル(local color-line model)を仮定しないことから、複雑な標本化や学習戦略を必要としない。一方、提案手法はいかなる次元数のどんな色空間や特徴空間にも良好に一般化でき、各画素において2以上のどんなアルファ数やレイヤ数にも対応でき、明らかに簡単に実装できる。この実装については公開済みである。提案するマッティング手法はその内容からK最近傍マッティングと呼ばれ、非局在的な近傍を照合するためにK最近傍(K Nearest Neighbours, KNN)を用いることで非局在原理を活用する。提案手法はまた、ユーザによる疎なマーク付け(sparse user markups)であっても従来手法に匹敵する結果が得られる、単純で高速なアルゴリズムに寄与する。KNNマッティングは閉形式解を持ち、前処理付き共役勾配法(preconditioned conjugate gradient method)を活用することで効率的な実装を実現する。ベンチマークデータセットを用いた実験的評価により、提案手法によるマッティング結果の品質は、より難解な実装(more involved implementation)を必要とする最先端の手法と比較して、同等以上であることが示される。本稿において我々は、非局在原理をアルファ値の推定に留まらず、同じラプラシアン・フレームワークを用いて重複する画像レイヤの抽出にも利用する。アルファ値が与えられれば、我々の閉形式解は複数レイヤ抽出問題を解くためにすんなりと一般化できる。抽出された画像レイヤに対して、定量的と定性的な比較を行い、その精度を実証する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


物体認識と検出のためのAND-ORテンプレート学習
Learning AND-OR Templates for Object Recognition and Detection

Si, Zhangzhang University of California, Los Angeles, Los Angeles Zhu, Song-Chun

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2189 - 2205 , September 2013

Keywords: Deformable templates, image grammar, information projection, object recognition, Animals, Face, Histograms, Image color analysis, Training, Unsupervised learning, Visualization

本稿では、画像オブジェクトの階層的再構成可能画像テンプレート(hierarchical reconfigurable image template)の一種であるAND-ORテンプレート(AND-OR Template, AOT)のための、教師なし学習フレームワークを提示する。AOTは、1) 階層的な合成として"AND"ノードを、2) 部分的な変形や結合として幾何学的"OR"ノードを、そして3) 複数の合成方法として構造的"OR"ノード、を含む。終端ノードは、画素に対して十分に生成的な(fully generative to the pixels)ハイブリッド画像テンプレート(Hybrid Image Templates, HIT)である。我々は、AOTモデルの構造とパラメータが共に、情報投影原理(information projection principle)を用いることで画像から教師なしで学習できることを示す。この学習アルゴリズムは二段階で構成される。これらは、1) 基本要素、部品、そして物体の階層的辞書を学習する再帰的ブロック処理手順(recursive block pursuit procedure)、そして2) 汎化性能を向上させるためにモデル構造を最小化するグラフ圧縮手順(graph compression procedure)、である。我々は、学習アルゴリズムの潜在的AOTに対する識別性能に影響を与える要因について調査する。更に我々は、合成データと実世界の画像とを用いて、学習済みのAOTの性能評価を行う多数の方法を提案する。提案モデルはテンプレートマッチングの精度を向上することで、最先端の物体検出手法を凌駕する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


制限付きマルコフ確率場を用いた自然画像のモデル化
Modeling Natural Images Using Gated MRFs

Ranzato, Marc'Aurelio University of Toronto, Toronto Mnih, Volodymyr Susskind, Joshua M. Hinton, Geoffrey E.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2206 - 2222 , September 2013

Keywords: Boltzmann machine, Gated MRF, deep learning, denoising, density estimation, energy-based model, facial expression recognition, factored 3-way model, generative model, natural images, object recognition, unsupervised learning, Adaptation models, Computational modeling, Covariance matrix, Image reconstruction, Logic gates, Probabilistic logic, Vectors

本稿では、二組の潜在変数を持つ実数画像のモデル化(real-valued image modeling)のためのマルコフ確率場について説明する。第一の組は全ての画素対間の相互作用を制限する(gate the interactions)のに用いられ、第二の組は各画素の平均輝度を決定するのに用いられる。従来のモデルは、入力に対する条件付き分布が、平均値が固定であったり共分散行列が対角行列であるガウス分布のみに制限されているのに対し、このモデルは平均と共分散とが潜在変数の設定によって決定される、より強力なモデルである。柔軟性が向上したことで、この制限付きマルコフ確率場は、高解像度の自然画像の制約なし分布(unconstrained distribution)を学習することで、従来よりも現実的なサンプルを生成できる。更に、モデルの潜在変数は効率的に推測することができ、認識課題において極めて有効な記述子として利用できる。モデルに対して二値の潜在変数のレイヤを追加することで生成と識別が劇的に向上し、深信念ネットワーク(Deep Belief Network)と呼ばれる階層化モデルが生成される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多事例親和性伝播
Multi-Exemplar Affinity Propagation

Wang, Chang-Dong Sun Yat-sen University, Guangzhou Lai, Jian-Huang Suen, Ching Y. Zhu, Jun-Yong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2223 - 2237 , September 2013

Keywords: Clustering, affinity propagation, factor graph, max-product belief propagation, multi-exemplar, Belief propagation, Clustering algorithms, Clustering methods, Computational modeling, Couplings, Educational institutions, Kernel

親和性伝播(Affinity Propagation, AP)クラスタリングアルゴリズムは、ここ数年注目を浴びている。APが魅力的な理由は、効率的で、初期値依存性が弱く、また他の事例ベースの手法と比較して誤り率の低いクラスタを生成するためである。一方で、APの一事例モデル(single-exemplar model)は、シーン分析や文字認識などの用途において複数のサブクラスをモデル化する目的で利用するのには適さない。この欠点を改善するために、我々は一事例モデルを多事例モデルへと拡張することで、新しい多事例親和性伝播(Multi-Exemplar Affinity Propagation, MEAP)アルゴリズムを構築する。提案する新しいモデルは、親事例(super exemplar)と対応付く各クラスタに属する事例数を自動的に決定し、カテゴリ内のサブクラスを推定する。このモデルを解くことはNP困難であるが、我々はmax-sum確率伝播法(max-sum belief propagation)を用いて近隣最大クラスタ(neighborhood maximum cluster)を生成することで、クラスタ数、多事例、そして親事例を事前に指定することなく、この問題を解決する。これに加え、データ内に存在するスパース性を活用することで、計算時間やメモリ使用量を劇的に低減できる。実験的研究から、教師なし画像分類や手書き数字のクラスタリングの用途において、MEAPは他の手法を大幅に上回る性能を示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


要素ごとの因子分解からの射影的多視点構造と運動の推定
Projective Multiview Structure and Motion from Element-Wise Factorization

Dai, Yuchao Northwestern Polytechnical University, China and Australian National University, Canberra Li, Hongdong He, Mingyi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2238 - 2251 , September 2013

Keywords: Element-wise factorization, missing data, outlier, projective structure and motion, semidefinite programming, Cameras, Educational institutions, Image reconstruction, Indexes, Iterative methods, Matrix decomposition, Minimization

Sturm-Triggs型反復(Sturm-Triggs type iteration)は、射影的運動からの構造推定(Structure from Motion, SfM)因子分解問題を解くために長年使われてきたアプローチである。このアプローチでは、射影的奥行き(projective depth)、シーンの構造、そしてカメラ運動を、それぞれ交互に反復的に解くものである。他の多くの反復的アルゴリズムと同様に、Sturm-Triggs型反復も一般的な欠点を抱えている。この欠点の例を挙げれば、適切な初期化が必要であること、反復処理が収束しなかったり極小値に収束してしまうことである。本稿において我々は、射影的SfM問題を新しい独自の要素ごとの因子分解問題(つまり、Hadamard因子分解問題)として定式化する。これは、従来の行列因子問題として定式化するアプローチとは対照的である。この定式化のおかげで、凸最適化を用いて射影的奥行き、シーンの構造、そしてカメラ運動を、同時に求めることができる。拡張性を実現するために、連続アルゴリズム(continuation-based algorithm)を導入する。提案手法は、緩和ギャップ(relaxation gap)に至るまでの大域最適解を得ることが保証されており、この観点から大域的な手法(global method)であると言える。提案手法のもう一つの利点は、欠損値や外れ値など実世界で生じる問題を比較的容易に、そして全てを自然で統一的に扱えることである。合成画像と実画像とを用いた詳細な実験から、最先端の手法に比類する結果が示される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


未知の照明下における測光尺度を用いた距離画像の位置合わせ
Range Image Registration Using a Photometric Metric under Unknown Lighting

Thomas, Diego National Institute of Informatics, Tokyo Sugimoto, Akihiro

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2252 - 2269 , September 2013

Keywords: Range image, photometric reprojection, photometry, registration, spherical harmonics, Cost function, Geometry, Harmonic analysis, Image color analysis, Lighting, Photometry

本稿では、画像形成の球面調和表現(spherical harmonics representation)に基づき、既知の剛体変換の正確性評価を目的とする新しい測光尺度(photometric metric)を導出する。この剛体変換は、遠方に存在する未知の全般照明(general illumination)下で撮影された、二枚の重なりを持つ距離画像の位置合わせを行うものである。我々は、入力された変換により求められた点対応から、二枚の距離画像における周囲の照明とアルベド値を推定する。次に、測光再射影誤差(photometric reprojection error)を算出するために、点対応を用いて変換されたアルベド値を用いて両距離画像の色を合成する。この方法により、測光再射影誤差を最小化する変換を求めることで、二枚の距離画像を正確に位置合わせできる。我々は更に、提案する測光尺度を用いて、未知の照明下で撮影された顕著な幾何学的特徴を持たない距離画像の組を位置合わせする、実用的な手法を提案する。この手法では、提案する測光尺度を最小化する変換の探索に、仮説検証戦略(hypothesize-and-test strategy)を用いる。変換の候補は、各距離画像の球面表現を用いることで効率的に生成される。合成データと実データを用いた実験結果により、提案する尺度の有用性が示される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


表情、遮蔽、姿勢の異なる条件下での三次元顔認識
3D Face Recognition under Expressions, Occlusions, and Pose Variations

Drira, Hassen Institut Mines-T?l?com, Villeneuve d'Ascq Ben Amor, Boulbaba Srivastava, Anuj Daoudi, Mohamed Slama, Rim

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2270 - 2283 , September 2013

Keywords: 3D face recognition, biometrics, data restoration, quality control, shape analysis, Face, Face recognition, Lips, Mouth, Nose, Probes, Shape

我々は、形状の比較、照合、そして平均化に特化した、三次元顔を分析する新しい幾何学的フレームワークを提案する。本稿において我々は、顔表面を鼻先から放射されるラジアル曲線(radial curve)により表現し、この曲線を弾性形状分析(elastic shape analysis)することで、顔表面全体の形状分析を行うリーマンフレームワークを構築する。この表現は、弾性リーマン計量(elastic Riemannian metric)と同様に、顔の変形を計測する目的に適合している。また、この表現は、大げさな表情(特に口を開けているもの)、大きな姿勢の変動、部分要素の欠落、そして眼鏡や髪などによる部分的な遮蔽に対して頑健である。提案するフレームワークは、実験的観点と理論的観点の両方から有望であることが実証される。実験的評価の側面から、それぞれ課題設定の異なるFRGCv2、GavabDB、そしてBosphorusの計3つの有名なデータベースを用いた実験結果により、提案手法が最先端の手法と比較して同等かそれ以上の性能を持つことが示される。理論的観点では、本フレームワークは、接空間(tangent space)に対する主成分分析による欠落した顔要素の推定や平均形状の算出を初めとする、形式的な統計的推論(formal statistical inference)を許容する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


WESD:形状相違度計測のための重み付きスペクトル距離
WESD--Weighted Spectral Distance for Measuring Shape Dissimilarity

Konukoglu, Ender Massachusetts General Hospital and Harvard Medical School, Charlestown Glocker, Ben Criminisi, Antonio Pohl, Kilian M.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2284 - 2297 , September 2013

Keywords: Laplace operator, Laplace spectrum, Shape distance, label maps, medical images, segmentations, spectral distance, Eigenvalues and eigenfunctions, Equations, Geometry, Global Positioning System, Heating, Laplace equations, Shape

本稿では、物体間の形状の相違度を計測するための新しい距離を提示する。近年の研究によって、ラブラス演算子の固有値をコンパクトな形状記述子として利用する方法が提案された。本稿において我々は、固有値を再考することで、形状の相違度を定量化するための適切な距離を定義する。この距離を重み付きスペクトル距離(Weighted Spectral Distance, WESD)と呼ぶ。WESDの定義は熱痕跡(heat trace)を分析することで導出される。この分析は、提案する距離に対して直感的な意味を与えると共に、物体に固有の形状との数学的な関連性を与える。我々は最終的な距離の定義を分析し、重要な理論的特性を示すと共に、それを証明する。これらの特性には次のようなものが含まれる。WESDは、1) 固有値系列全体に渡って定義されるだけでなく、収束することが担保され、2) 擬距離(pseudometric)であり、3) 有限小数個の固有値を用いて正確に推定でき、4) [0, 1)の範囲で表現できる。最後に、仮想的な物体と実際の物体とを用いた実験内容が示される。これらの実験から、映像解析や医用画像解析に関する応用用途におけるWESDの利点が明らかになる。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


より良好な数値的等方性のための対称な高速進行法
Symmetric Fast Marching Schemes for Better Numerical Isotropy

Appia, Vikram Texas Instruments, Dallas Yezzi, Anthony

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2298 - 2304 , September 2013

Keywords: Eikonal equation, FMM, Fast marching methods, global minimal path, isotropic fast marching, segmentation, Accuracy, Anisotropic magnetoresistance, Cost function, Equations, Interpolation, Mathematical model, Numerical models

既存の高速進行法(fast marching method)は、アイコーナル方程式(Eikonal equation)を解く上で、連続的な(一次)モデルにより累積コストを推定する一方で、不連続な(ゼロ次)モデルにより各格子点における移動コストを推定する。その結果、任意の点における(数値計算により)推定された累積コストは、到着する向きに応じて異なる。これにより、連続的な偏微分方程式はそれ自体が等方的であるにもかかわらず、離散的アルゴリズム(discrete algorithm)に異方性が生じる。この異方性を取り除くために、我々は二種類の大きく異なる枠組みを提案する。第一のモデルでは、伝播する向きの影響を受けない、移動コストの連続的な補間を利用する。第二のモデルでは、向きによる影響を乗り越えるため、移動コストをより高解像度の格子点へとアップサンプルする。我々は、高速進行法を用いる幾つかの応用用途において、コストの計算から向きによる影響を取り除くことの意義を示す。また、根底にある連続的な偏微分方程式に従って、両手法ともに離散的実装をより等方的にすることを実証する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


完全グラフに適用する扱いやすい分配関数を持つ確率場の一クラス
A Class of Random Fields on Complete Graphs with Tractable Partition Function

Flach, Boris Czech Technical University, Prague

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 9, pp. pp.2304 - 2306 , September 2013

Keywords: Markov random fields

本稿の目的は、完全グラフに適用されるある種の確率場において用いられる分配関数(partition function)や周辺確率(marginal probability)を、多項式時間で計算できる手法に対して注目を集めることにある。この種の確率場には、均一な対ポテンシャル(homogeneous pairwise potential)と任意の(不均一な)単項ポテンシャル(unary potential)とを持つイジングモデル(Ising model)を含む。同様に分配関数と周辺確率は、これらが均一な対ポテンシャルを持つ条件下において、完全二部グラフ(complete bipartite graph)の確率場に対して多項式時間で計算できる。我々は、これらの扱いやすい大規模な確率場のクラスは、厳密な誤差推定を与えることで近似アルゴリズムの評価に役立つものと期待している。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.35, No.10


疎密戦略によるマイニューシャに基づく潜在掌紋マッチング
A Coarse to Fine Minutiae-Based Latent Palmprint Matching

Liu, Eryun Michigan State University, East Lansing and Xidian University, Xian Jain, Anil K. Tian, Jie

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2307 - 2322 , October 2013

Keywords: Palmprint, latent palmprint matching, match propagation, minutia descriptor, minutiae clustering, Algorithm design and analysis, Clustering algorithms, Databases, Forensics, Nonlinear distortion, Pattern matching, Vectors

掌紋生体スキャン技術が利用できるようになったため、法務及び法の執行の分野において高解像度掌紋認識が大きな関心を集め始めている。法務での応用においては、潜在掌紋が決定的な証拠となりうる。なぜならば犯罪現場において検出される証拠の潜在画像の約30%は掌紋だからである。現在利用できるほとんどの高解像度掌紋マッチングアルゴリズムはマイニューシャに基づく指紋マッチング戦略に沿ったものだが、掌紋に含まれる大量のマイニューシャ(約1000個。これに対して指紋のそれはわずか100程度)と掌紋全体の前景領域のサイズが大きいことから、効率的で頑健な潜在掌紋マッチングのための新たな戦略が必要とされていた。本稿では、マイニューシャクラスタリングとマイニューシャマッチング伝播に基づく疎密マッチング戦略を、掌紋マッチングのために特別に設計する。多数のマイニューシャに対応するために局所特徴に基づくマイニューシャクラスタリングアルゴリズムを開発する。このクラスタリングでは、同じクラスタに属するマイニューシャは同じ局所的な特性を持つようにする。次に各クラスタについて疎なマッチングを行い、2つの掌紋間のマイニューシャの初期対応を計算する。この初期対応から開始して、マイニューシャ対応の伝播アルゴリズムにより、その掌紋のすべての関連マイニューシャを検索する。本稿で提案する掌紋マッチングアルゴリズムを潜在画像対全画像セット形式で、446個の掌紋潜在画像を含む12,489画像からなる掌紋データベースにおいて評価試験を行った。検出結果最上位同定精度において79.4%の性能を示した。これは他の最新の掌紋マッチングアルゴリズムが同データベースにおける同試験で60.8%の性能でしかないことに比べると顕著に高い数値である。我々のアルゴリズムの平均計算時間は、単一画像とデータベースの全画像のフルマッチングでもgenuineマッチングで141ms、imposterマッチング50ms(Windows XP デスクトップPC 2.2GHz CPU, 1GB RAM)であった。この計算時間は他の最新のアルゴリズムよりも10倍以上速い。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像特徴としてのサブグラフの密な集合の維持と学習のためのグラフ格子アプローチ
A Graph Lattice Approach to Maintaining and Learning Dense Collections of Subgraphs as Image Features

Saund, Eric Palo Alto Research Center, Palo Alto

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2323 - 2339 , October 2013

Keywords: CMD distance, Graph lattice, document classification, line-art analysis, subgraph matching, weighted voting, Histograms, Junctions, Lattices, NIST, Support vector machine classification, Vectors, Vocabulary

オブジェクトとシーンの効果的な識別及びインデクス付けは情報を有する画像特徴の抽出に依存している。本稿ではサブグラフ形式の複雑な画像特徴の大規模な族を、グラフ格子を構成することでより単純な特徴に基づいて構成する方法を示す。このグラフ格子とは、単一の格子に対して、階層化された関連するサブグラフをリンクさせたものである。本手法は、オーバーラップ且つ冗長な多くのサブグラフと照合することで頑健性を担保している。これにより、高耐性だが計算コストの高い理想モデルグラフ最小組に対するグラフマッチング手法に頼ることなく、計算コストの低い厳密グラフマッチングを利用することができるようになる。グラフ格子データ構造を用いることで厳密マッチングにおける効率も高くできる。更にこのグラフ格子により、観測データに対して適応的にアレンジされるサブグラフの特徴空間を適応的に伸長するための手法を利用できるようになる。我々はこのアプローチを、直線で囲まれた線画、特に文書フォーマット認識の実用的な問題に対するものとして開発した。特に我々は、一カテゴリあたりのラベル付き訓練データを一つもしくは極少数しか必要としない方法に関心がある。この目的のために前述のサブグラフ特徴を用いる2つのアプローチについて例証する。bag-of-wards特徴ベクトルを用いることで、ベンチマークオブジェクト形状データベースにおける本質的な単一インスタンス学習(single-instance learning)を実現した。これの後さらに教師なし学習によるクラスタリングを行う。特徴投票法と特徴選択を用いることで、更に困難なデータセットにおいて性能を向上することが出来る。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


適応的変形による関連性データからの共埋め込み(co-embedding)の自動生成
Automatic Generation of Co-Embeddings from Relational Data with Adaptive Shaping

Mu, Tingting University of Liverpool, Liverpool Goulermas, John Yannis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2340 - 2356 , October 2013

Keywords: Relational data, data co-embedding, data visualization, heterogeneous embedding, structural matching

本稿では、単一の共通した低次元空間に対して様々なタイプのパターンを埋め込む、共埋め込み問題(co-embedding problem)について、特にサンプル間の関係(値)のみが与えられるような場合について検討する。既存の共埋め込みアルゴリズム及び非直接的にでも関係のあるアプローチの間にある共通点を見つけるための一般的な解析を行い、オブジェクト形状とその共埋め込みの分布を制御する潜在要因について検討を行った。本研究の成果のうち、最も重要なものは共埋め込みの新たな計算方法の提案であり、これを適応的ノイズ除去をもつ自動共埋め込み(automatic co-embedding with adaptive shaping: ACAS)と呼ぶ。本手法は共埋め込み問題の効率的な変換に基づくものであり、入力データに対する柔軟なモデル適用、モデル変数の数が少ないことによる共埋め込み問題のパラメトリックな解法、量子化手続きに基づくモデル最適化のための頑健なモデルフィッティング指標などの利点を持つ。第二の成果は、共埋め込みアルゴリズムの定性的な解析と、既存のラベル付ベンチマークデータセットを用いた定量的なアウトプットの評価に対する一般スキームの導入である。合成データ及び実データを利用した実験により、提案アルゴリズムが既存の物に比べ高い性能を持つことが示される。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非計量(ノンメトリック)類似性からのメトリック埋め込みを用いた相関による校正
Calibration by Correlation Using Metric Embedding from Nonmetric Similarities

Censi, Andrea California Institute of Technology, Pasadena Scaramuzza, Davide

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2357 - 2370 , October 2013

Keywords: Intrinsic camera calibration, catadioptric cameras, fish-eye cameras, metric embedding, pin-hole cameras, Calibration, Cameras, Correlation, Robot vision systems, Visualization

本稿では、カメラを振って周囲を撮像することだけに基づく、一般的な単一視点カメラの校正のための固有校正法を紹介する。ランダムに動くカメラで撮像されたビデオ(時系列画像)から、2点間の一部の画素の明度値の時間相関を計算する。カメラが確率的に一様な動きをする場合、任意の画素対の相関は、視覚球面(visual sphere)における画素方向間の距離の関数となることが示される。これにより、校正問題を、非計量尺度からのメトリック埋め込み問題として定式化することが出来る。この距離の未知の関数であるところの類似性尺度から、前記の視覚球面における画素のずれ量を算出したい。この問題は多次元スケーリング(multidimensional scaling: MDS)の一般化であり、包括的観測可能性解析(comprehensive observability analysis)(「計量的に正確な埋め込みを再構成できるか?」)と固有一般解(solid generic solution)(「このようにする方法は?」)への依存性は現時点では無い。この観測可能性が、対象となる多様体の局所幾何特性(曲率)及び大域位相幾何的特性(接続性:connectedness)の両方に依存することを示す。ユークリッド幾何の場合と異なり、前記の視覚球面においては点群の分布を再構成することが可能であり、それゆえに非計量尺度から計量的に正確な解を得ることが出来る。多様体の種類に対して頑健で、且つ計量情報が観測できる場合に計量的に正確な解を得ることが出来るアルゴリズムを示す。提案アルゴリズムの性能を様々なカメラ(ピンホール、魚眼、全方向カメラ)について検証したところ、従来の手法を用いた校正に伍する結果を得た。更に合成ベンチマークデータを用いた実験により、観測可能性解析のすべての重要なケースについて、論理的な予測の通りに本アルゴリズムが機能することが示された。 訳注:上記訳文中の括弧(「」)内の文は原文がこのようになっています。意味と意図は不明ですが原文を尊重し、そのままの形で訳しました。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


短い記述子を用いた効率的なサブフレームビデオ整列
Efficient Subframe Video Alignment Using Short Descriptors

Evangelidis, Georgios D. INRIA Rhone-Alpes, Grenoble Bauckhage, Christian

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2371 - 2386 , October 2013

Keywords: Video synchronization, image/video retrieval, short image descriptors, spatiotemporal alignment, Accuracy, Cameras, Detectors, Synchronization, Trajectory, Video sequences, Visualization

本稿ではビデオ整列問題を取り扱う。2つのビデオシーケンスの間の時空間の整列を行う効率的なアプローチを紹介する。他の手法と異なり、移動カメラにより異なる時間に撮像された三次元シーンを別々に解析する。提案手法の新規性は、効率的な情報検索フレームワークの適用と拡張により、前記の複数のシーケンスをそれぞれ画像データベース及び複数のクエリ画像として扱うことにある。最近提案された4つの要素からなる記述子(quad descriptor)に基づいて効率的な検索を行う。このために複数クエリを利用した検索(マルチスケール)法により投票結果を集計する形の三次元投票空間(Vote Space: VS)を定義する。更にこのVS法に基づく2つの解法を紹介する。ひとつはオンライン同期を許す因果関係に基づくものであり、他方はマルチスケール動的計画法による大域解である。更に最近導入されたECC画像整列アルゴリズムを時間次元に拡張することで、サブフレーム精度の位置合わせと同期の高精度化を実現する。この短い記述子に対する全探索と量子化方法を試験し、提案手法を他の最新の手法と比較した。移動カメラ、及び固定カメラにより撮像された実ビデオを用いた実験により、提案手法の効率性を例証し、次空間整列精度における効果を実証する。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


頑健なカメラ姿勢と焦点距離推定のためのしらみつぶし線形化
Exhaustive Linearization for Robust Camera Pose and Focal Length Estimation

Penate-Sanchez, Adrian Institut de Rob?tica i Inform?tica Industrial, CSIC-UPC, Barcelona Andrade-Cetto, Juan Moreno-Noguer, Francesc

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2387 - 2400 , October 2013

Keywords: Camera calibration, perspective-n-point problem, Cameras, Equations, Estimation, Kernel, Linear systems, Noise, Vectors

3次元から2次元への点群対応組から、カメラの姿勢と焦点距離を推定する新しい手法を提案する。我々の手法は既存の閉形式の解法よりも高い精度と高速性を実現し、同時に反復型のものよりも高い精度を保持している。我々のアプローチは最近提案された校正済みケースに対するO(n)型解法であるEPnPアルゴリズムからアイディアを得たものである。焦点距離を追加の未知項として取り扱うことで、特に多量のノイズがある場合に、EPnPの線形化と再線形化手法を無効化することができることを示す。本稿では、この制約を回避することができる、しらみつぶし線形化(exhaustive linearization)及びしらみつぶし再線形化(exhaustive relinearization)と名づけた新たな方法論を紹介する。これらの手法では、閉形式の解空間を体系的に探索する。この手法を実データ及び合成データを用いて評価した結果、正確な焦点距離推定に加え、推定カメラ姿勢も校正済みカメラ向けのEPnPを用いて計算したものに伍する精度だった。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ラベル分布からの学習による顔画像からの年齢推定
Facial Age Estimation by Learning from Label Distributions

Geng, Xin Southeast University, Nanjing Yin, Chao Zhou, Zhi-Hua

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2401 - 2412 , October 2013

Keywords: Age estimation, face image, label distribution, machine learning, Aging, Algorithm design and analysis, Estimation, Humans, Neural networks, Training, Vectors

顔画像からの年齢推定の主な困難のひとつは、この課題において充分且つ完備な訓練データが期待できないことである。幸いなことに加齢は連続且つスローなプロセスであるため、年齢の近い顔はよく似た外観を持つ。この観測からアイディアを得て、本稿では単一の顔画像は単一のラベル(年齢)を持つと仮定せず、ラベルの分布に対して関連付けられている。各ラベルがインスタンスを記述するものであるとすると、このラベル分布は特定のクラスラベルをカバーするものである。この観点から単一の顔画像は単に単一の年齢クラスの学習に貢献するだけではなく、隣接する年齢クラスの学習にも寄与する。本稿ではこのようなラベル分布らからの学習のためのIIS-LLD及びCPNNと名づけた2つのアルゴリズムを提案する。2つの加齢顔画像データベースを用いた実験の結果、本稿で提案するラベル分布学習アルゴリズムが他の単一ラベル学習アルゴリズムよりも格段に優れた性能を持つことが示された。この2つのデータベースはそれぞれ年齢推定タスク専用に整備されたものと、一般用途のものである。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


準条件付マルコフ確率場を用いた手書き中国語/日本語テキスト認識
Handwritten Chinese/Japanese Text Recognition Using Semi-Markov Conditional Random Fields

Zhou, Xiang-Dong Institute of Software of Chinese Academy of Sciences, Beijing Wang, Da-Han Tian, Feng Liu, Cheng-Lin Nakagawa, Masaki

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2413 - 2426 , October 2013

Keywords: Character string recognition, beam search, lattice pruning, semi-Markov conditional random field, Character recognition, Context, Context modeling, Handwriting recognition, Lattices, Text recognition, Training

本稿では、準条件付マルコフ確率場(semi-Markov conditional random fields: semi-CRFs)に基づく手書きの中国語/日本語テキスト(文字列)認識を提案する。本手法では、幾何的及び言語学的なコンテキストの交換可能性を特徴関数として表現する。候補文字認識スコアとこの交換可能性スコアを、洗練された形で融合させることで、ある文字列の、可能性のある分割?認識仮説のすべてを含む格子上に、高次のsemi-CRFモデルを定義する。文字認識及び前記の交換可能性についてのモデルが与えられたとき、訓練文字列のデータセットに対するマージン項を持つ負の対数尤度損失を最小化することで、前記の情報融合のパラメタを最適化する。トリグラム言語モデル(trigram language model)を使う場合の訓練フェーズにおける計算量を低減するために、前進?後退格子枝刈(forward-backward lattice pruning)アルゴリズムを提案し、更にビーム探索法の検討によりデコード速度の向上を図る。非拘束オンライン手書き文字認識のための3つのデータベースを用いて提案手法の性能を評価する。CASIA-OLHWDB(中国語)データベース、及びTUAT Kondata(日本語)データベースを用いた実験では、それぞれに対する文字レベル修正率は95.20及び95.44%、正答率は94.54%、及び94.55%であった。ICDAR 2011中国語手書き文字認識コンペティションテスト画像セットにおける実験では、提案手法がコンペティションの優勝者をも上回る性能を示した。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パッチに基づく動的外観モデリングによる非剛体的に大きく外観の変化するオブジェクトのトラッキング
Highly Nonrigid Object Tracking via Patch-Based Dynamic Appearance Modeling

Kwon, Junseok Seoul National University, Seoul Lee, Kyoung Mu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2427 - 2441 , October 2013

Keywords: Basin Hopping Sampling, Markov Chain Monte Carlo, Object tracking, likelihood landscape analysis, local patch-based appearance model, nonrigid object, Adaptation models, Computational modeling, Proposals, Robustness, Sampling methods, Target tracking, Topology

本稿では幾何的外観が経時的に大きく変化するターゲットオブジェクトのトラッキングのための新しいアルゴリズムを提案する。このようなオブジェクトをトラッキングするために局所パッチに基づく外観モデルを開発し、パッチ間のトポロジーを適応的に変化させるオンライン更新方法を与える。オンライン更新プロセスでは、各パッチの尤度分布を解析することで頑健性を決定する。この頑健性尺度に基づいて提案手法は各パッチに対してベストな特徴を選択し、時間変化にしたがって更に各パッチの移動、削除、追加を行う。更に精度向上のため、ラフなオブジェクト分割結果を本稿で提案する外観モデルに統合する。提案フレームワークでは、準教師付学習による分割タスクのための良い初期値として上記のパッチを利用することができるため、分割結果を簡単に得ることができる。パッチ数の多さに起因する計算複雑性の問題を解消するためにこのトラッキングフレームワークではBasin Hopping(BH)サンプリング法を用いている。BHサンプリング法は、決定論的局所最適化により計算複雑性を顕著に低減する。これにより本稿で提案する外観モデルで充分な数のパッチを利用することができるようになる。実験結果は幾何的外観が大幅に変化するような場合においても、提案アプローチによりオブジェクトを精密且つ頑健にトラッキングできることを示している。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


比較可能なオブジェクト類似性を用いた、オブジェクトの検出と分類の改良
Improved Object Categorization and Detection Using Comparative Object Similarity

Wang, Gang Nanyang Technological University, Singapore Forsyth, David Hoiem, Derek

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2442 - 2453 , October 2013

Keywords: Comparative object similarity, PASCAL VOC, SVM, deformable part model, kernel machines, object categorization, object detection, sharing, Adaptation models, Detectors, Kernel, Object detection, Support vector machines, Training, Visualization

実世界におけるオブジェクトは、本質的に裾野の広い分布をもつ。このため、それぞれの分類毎に多くの画像例をもってしても、オブジェクトの認識/検出器の訓練には大変な困難を伴う。従って教師例をほとんど、あるは、まったく使わない学習を可能とするためには、オブジェクト分類間の視覚知識を共有する必要が生じる。本稿では、局所オブジェクト類似性情報(分類の対が類似か非類似かを記述した情報)が、効率良い知識変換のために異なる分類を互いに結びつける上で、非常に有益な手がかりとなることを示す。鍵となる洞察は、与えられた類似のオブジェクト分類集合と、非類似のオブジェクト分類集合に対して、良好なオブジェクトモデルは、類似分類からの例に対して、非類似分類からの例に対してよりも強く反応しなくてはならないということである。この分類に依存した類似性の正規化を活用するために、正規化カーネルマシン・アルゴリズムを開発した。これは、教師例をほとんど、あるいは、まったく用いることなく、カーネル分類器を訓練する。あわせて、オブジェクト類似性の制約を符号化するよう、最新のオブジェクト検出器も適合させた。Labelmeデータセットからの数百もの分類上の実験により、本提案の正規化カーネル分類器が、オブジェクト分類を顕著に改善できることを示す。また、PASCAL VOC 2007 ベンチマーク・データセット上で、改良したオブジェクト検出器の評価も行った。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


近似的周辺推論によるグラフィカルモデルのパラメータ学習
Learning Graphical Model Parameters with Approximate Marginal Inference

Domke, Justin NICTA and Australia National University, Canberra

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2454 - 2467 , October 2013

Keywords: Graphical models, conditional random fields, inference, machine learning, segmentation, Approximation algorithms, Entropy, Function approximation, Markov processes, Optimization, Vectors

グラフィカルモデルの尤度に基づく学習では、計算上の複雑さとモデル誤指定に対する頑健性が課題となる。本稿では、学習時において、モデルと周辺近似の双方を考慮して、予測された周辺(尤度)の確からしさの測度を直接最大化するパラメータ適合手法を報告する。画像処理課題での実験により、適合させるモデルが事実上近似であるような難しい課題において、周辺化に基づく学習が、尤度に基づく近似よりも良好に機能することを示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複雑な活動認識のための時区間ベイジアンネットワーク(Interval Temporal Bayesian Network)を用いた時間的相互作用のモデル化
Modeling Temporal Interactions with Interval Temporal Bayesian Networks for Complex Activity Recognition

Zhang, Yongmian Konica Minolta Laboratory U.S.A. Inc., San Mateo Zhang, Yifan Swears, Eran Larios, Natalia Wang, Ziheng Ji, Qiang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2468 - 2483 , October 2013

Keywords: Activity recognition, Bayesian networks, interval temporal Bayesian networks, temporal reasoning, Bayesian methods, Computational modeling, Graphical models, Hidden Markov models, Probabilistic logic, Uncertainty

複雑な活動は典型的に、ある時区間上で同時あるいは逐次生じる複数の基本的な事象から構成される。そのような活動を理解するには、個々の事象それぞれを認識することが必要とされるたけでなく、より重要なこととして、それらの時空間的な依存性を、さまざまな時間間隔で取得することが必要となる。しかし、現行のほとんどのグラフィカルモデルに基づくアプローチには、幾つかの制約がある。第一に、隠れマルコフモデル(hidden Markov model : HMM)や動的ベイジアンネットワークのような時分割グラフィカルモデルは、典型的に時系列(points of time)に基づいており、それ故、それらは、先行(precedes)、後続(follows)、同時(equals)の3つの時間的な関係だけが取得可能である。第二に、HMMは、同時事象の個数の増加に対して指数的に増大する確率的有限状態マシンである。第三に、統語的で記述に基づく方法のようなその他のアプローチは、時間的関係を豊かにモデリングする一方で、不確かなものを取得するための表現力に欠ける。これらの課題を扱うために、我々は、時区間ベイジアンネットワーク(interval temporal Baysian network : ITBN)を導入する。これは、時区間上の時間的依存性を明示的にモデル化するために、ベイジアンネットワークを区間代数に結びつけた新しいグラフィカルモデルである。ここでは、ITBNモデルの構造とパラメータを学習するために、先進的な機械学習手法を導入した。また、実験結果により、時空間的依存性を用いた推論を用いることで、提案モデルが、同時進行の事象と時系列的な事象を共に含む複雑な活動のモデル化と認識を行う際の効率を、著しく改善することを示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手作業の介入を最小に押さえる多視点顔検出と位置決め
Multiview Face Detection and Registration Requiring Minimal Manual Intervention

Anvar, Seyed Mohammad Hassan Nanyang Technological University and the Institute for Infocomm Research, Singapore Yau, Wei-Yun Teoh, Eam Khwang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2484 - 2497 , October 2013

Keywords: Multiview, face constellation, image registration, simultaneous face detection and localization, Detectors, Face, Face detection, Face recognition, Feature extraction, Manuals, Training

大抵の顔認識システムは、予め検出と位置決めのための顔を必要とする。本稿では、任意の視点や異なるスケールをもつ複数の顔画に対して、検出と位置決めを同時に行なうアプローチを提案する。ここで主題として取り上げるのは、多視点の検出と位置決めを可能とする顔参照画像群(face constellation)の導入である。多くの手作業でラベル付けされた教師画像を必要とする他の多視点のアプローチと異なり、本提案の顔参照画像群では、手作業で指示された2つの参照点を含むただ一つの顔の参照画像だけを、初期値として必要とする。それに続く、任意の視点による顔の教師画像は、独特の局所特徴量の間の関連性に基づいて、自動的に顔参照画像群に追加される(参照画像に登録される)。上述のように、本提案構想の鍵となる利点は、顔参照画像群の訓練に要する手作業の介入を最小限とすることである。我々はまた、照合に失敗する画像が大量にあるところでの、顔画像対間の独自関連ポイントを見つけるためのアプローチも提案する。また、任意視点での複数の顔の検出と位置決めのために、顔に関連する局所特徴クラスタであるかどうかを評価するための、統計的部類器に基づく定式化を提案する。また、FERET、CMUおよび、FDDB のデータベース上での実験で得られた結果により、本提案のアプローチが、任意姿勢の顔検出のための最新アプローチに比して、より性能が高いことを示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非線形カメラ応答関数と、画像ぼけ補正: 理論解析と実践
Nonlinear Camera Response Functions and Image Deblurring: Theoretical Analysis and Practice

Tai, Yu-Wing Korea Advanced Institute of Science and Technology, Daejeon Chen, Xiaogang Kim, Sunyeong Kim, Seon Joo Li, Feng Yang, Jie Yu, Jingyi Matsushita, Yasuyuki Brown, Michael S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2498 - 2512 , October 2013

Keywords: CRF estimation, Nonlinear camera response functions (CRFs), motion deblurring, Cameras, Deconvolution, Estimation, Image edge detection, Image restoration, Kernel, Shape

本研究では、画像ぼけ補正に用いられる非線形カメラ応答関数(camera response function : CRF)の振舞いについて調査を行なった。本稿では、動きぼけ補正におけるCRFの効果を分析するための広範な研究を提示する。特に、どのようにして、一連の非線形CRFにより空間不変な"ぼけ"が、空間的に変化する"ぼけ"として振る舞う現象を生じるのかを示す。また、CRF補正なしに動きぼけ画像に逆畳み込みを直接適用した場合、そのような非線形性がエッジ周辺に大きな誤差をもたらすことを示す。これらの誤差は、PSF (point spread function)が既知で、最新の正規化に基づく逆畳み込みアルゴリズムを用いた場合であっても不可避である。またさらに、如何にCRFがプラインド逆畳み込み法でのPSF推定アルゴリズムに不利に作用するのかも示す。これらの作用に対処するために、本稿では、PSFが既知あるは未知の場合に、一つまたはそれ以上のぼけ画像からCRFを直接推定する2つの方法を導入する。また、合成画像および実画像を用いた実験により、本解析の妥当性を立証するとともに、本アプローチの頑健性と正確性を示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


立体シームカービング: 幾何学的整合アプローチ
Stereo Seam Carving a Geometrically Consistent Approach

Dekel Basha, Tali Tel Aviv University, Tel Aviv Moses, Yael Avidan, Shai

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2513 - 2525 , October 2013

Keywords: Stereo, geometric consistency, retargeting, Algorithm design and analysis, Couplings, Geometry, Green products, Stereo image processing, Visualization

画像のリターゲティング・アルゴリズムは、情景中の主要物を破壊すること無く、画像要素をスクリーンに適応させることを試みるものである。既存の手法では、単一の画像のリターゲティングを扱うが、本稿では立体画像を構成する一対の画像をリターゲティングするための新しい手法を提案する。立体画像では、画像対のそれぞれを考慮無く独立にリターゲティングすると、幾何構造が歪んでしまうため、情景の3次元構造の知覚を損なうことが課題となる。ここでは、単一画像のシームカービングを、画像対に対して機能するよう拡張する方法を示す。この手法では、それぞれの画像の視覚上の歪みとともに深度歪みも最小化される。本提案手法の鍵は、画像対における画素間の可視性の関係(覆い隠す、隠される画素の関係)に注目することにある。結果として本提案手法では、修正された画像対が原画像同様に、実現可能な3次元情景として幾何学的に矛盾しないことが保証される。それ故、本手法で構図変更された立体画像を構成する画像対(stereo pair)は、立体ディスプレイ上で表示できるばかりでなく、さらに任意のコンピュータ・ビジョン・アルゴリズムによる処理を施すことが可能となる。本手法の検証は、難易度の高い数々の屋内や屋外の立体画像で実施した。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


情景構造推定とカメラ校正のための雲に基づく2つの特徴(cue)
Two Cloud-Based Cues for Estimating Scene Structure and Camera Calibration

Jacobs, Nathan University of Kentucky, Lexington Abrams, Austin Pless, Robert

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2526 - 2538 , October 2013

Keywords: Time lapse, clouds, depth map, image formation, nonmetric multidimensional scaling, shape from shadows, Cameras, Clouds, Correlation, Delay, Geometry, Satellites, Time series analysis

本稿では、3次元情景の幾何推定を支援するための、統計的に構造化された光源形態としての、雲の影を用いたアルゴリズムについて述べる。本アルゴリズムでは、野外固定カメラにより取得された動画像を入力とし、アルゴリズムへの主入力には、画素対間の輝度値時系列の関係を使用する。ここでは、この輝度に関する時系列対への入力となる一対の点の間の3次元距離に関連する2つの特徴について述べる。第一の特徴は、同じ時刻の雲の下では、近接する二つの画素は、離れた二点よりも近い関係にあるという事実から得られる。本稿では、この特徴を、焦点距離と情景構造の推定に用いる方法を述べる。第二の特徴は、情景を横切る雲の陰の動きに基づく。この特徴は、情景構造上の線形拘束の組となる。本稿では、これらの拘束が備える特有の曖昧さを、雲の動きの特徴と空間的特徴を結合することで解決する方法を示す。本手法の評価は、実際の屋外情景のいくつかの時間経過で実施した。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ステレオマッチングのための連結ヒストグラムに基づくコスト集計
Joint Histogram-Based Cost Aggregation for Stereo Matching

Min, Dongbo Advanced Digital Science Center, Singapore Lu, Jiangbo Do, Minh N.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2539 - 2545 , October 2013

Keywords: Cost aggregation, disparity hypotheses, joint histogram, stereo matching, Accuracy, Complexity theory, Histograms, Image color analysis, Joints, Redundancy

本稿では、ステレオマッチングにおいて、効率の良いコスト集計を実行できる新しい手法を提供する。ここでは、コスト集計問題をヒストグラムの観点により再定式化した。これは、ステレオマッチングにおけるコスト集約の複雑性を、著しく低減できる可能性を与えるものである。このアプローチは、これまでの画像やマッチングウインドのサイズ意味での複雑性を低減しようとする手法とは異なり、全ての仮定に対するフィルタ適用の反復によって生じる探索範囲の合間に存在する計算上の冗長性を、低減することに重点を置く。さらに、マッチングウインド内の効率の良いサンプリング・スキームを介して、ウインドに基づくフィルタリングの複雑性も低減する。また、精度と複雑性のトレードオフについては、提案手法で用いられるパラメータを、広い範囲で振ることにより調査した。実験結果により、提案手法が既存の局所的な手法よりも複雑性が低く、効率が良い高品質の差異マップ(disparity map)を提供することを示す。本稿はまた、複雑さを制約とするステレオマッチングのアルゴリズム設計に、新たな洞察を提供する。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最小概凸形状分解
Minimum Near-Convex Shape Decomposition

Ren, Zhou Nanyang Technological University, Singapore Yuan, Junsong Liu, Wenyu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2546 - 2552 , October 2013

Keywords: Shape decomposition, discrete optimization, shape representation

形状分解は、部品に基づく形状表現のための基本課題である。本稿では、様々な形状を最小個数の"概凸形状(near-convex)"の部品に分解する最小概凸形状分解(near-convex decomposition : MNCD)を提案する。この最小概凸形状分解は、非興味カット(nonintersting cuts)の個数を最小化することにより、離散最適化問題として定式化される。ここでは、分解の見た目の自然さを改善するために、2つの知覚的ルールを目的関数に制約条件として付与する。また、ユーザ指定のパラメータの一つである概凸度(degree of near-convexity)を備えることにより、本分解が局所的な歪みや形状変形に対して頑健となるようにしている。この最適化問題は、2値整数の線形計画法により、効率良く解かれる。理論解析と実験結果の双方により、本提案のアプローチが最新の結果に対して優れていることを示す。本アプローチでは冗長パーツの導入は不要であり、それ故、頑健な形状表現が導かれる。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動画像での目標検出とトラッキングのための性能指標における単調性と誤差タイプの可微分性
Monotonicity and Error Type Differentiability in Performance Measures for Target Detection and Tracking in Video

Leichter, Ido Microsoft Research, Haifa Krupka, Eyal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 10, pp. 2553 - 2560 , October 2013

Keywords: Performance evaluation, multiple targets, tracking

動画像における複数の目標検出とトラッキングの分野では、多くのシステムやアルゴリズムが存在し、また、出力の品質を評価するための多くの指標が提案されてきた。本稿は以下の内容で構成される。最初に、そのような特性指標は、単調性と誤差タイプの可微分性という2つの基本的な特性を備えているべきであるということについて論じる。次いで、近年提案されている指標は、それらの特性のどちらも備えていないこと、従って、それらはあまり有益ではないことを示す。最後に、一部が一般的な方法に基づいて構築される一組の簡潔な指標を示す。それらは、前述の2つの基本特性を備える。提案した性能評価値の組の有益性を、顔の検出およびトラッキングへの応用を通じて示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.35, No.11


点群データからの自動的なモデリングのためのフレームワーク
A Framework for Automatic Modeling from Point Cloud Data

Poullis, Charalambos Cyprus University of Technology, Cyprus

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2563 - 2575 , November 2013

Keywords: 3D modeling, Three-dimensional reconstruction, clustering, point cloud, segmentation, shape refinement

我々は点群からの自動的なモデリングを行うための、完全なフレームワークを提案する。まず、点群データは前処理により扱いやすいデータセットへと変換され、続いて新しい2段階の教師なしクラスタリングアルゴリズムを用いてクラスタへと分割される。各クラスタから抽出された境界は、高速なエネルギー最小化処理により簡略化され更新される。最後に、屋根輪郭(roof outline)に基づいて三次元モデルが生成される。提案するフレームワークに対する詳細な実験の結果を報告する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単一の線画からの顔識別のための探索検定手法
A Search-and-Validate Method for Face Identification from Single Line Drawings

Leong, Mei Chee Nanyang Technological University, Singapore Lee, Yong Tsui Fang, Fen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2576 - 2591 , November 2013

Keywords: 3D reconstruction, breadth-first search, face identification, single line drawing, Algorithm design and analysis, Face, Manifolds, Object recognition, Reliability, Search problems, Upper bound

線画により描画された物体の顔を見つけるために幾つかの研究がなされているが、この課題は依然として完全には解決されていない。従来手法は多くのケースで顔を正確に検出することができるが、得られたものが正しいことを検証する仕組みが存在しないため、最終的に人間が確認する必要がある。本稿では、顔の候補を見つけ、その確からしさを検定する二段階のアプローチを用い、究極には正しい顔のみが得られるようにすることを目的とする。顔の検出では、最短経路を生成する二重幅優先探索アルゴリズム(double breadth-first search algorithm)を用い、顔の候補を検出する。基本的な前提は、発見された顔の中で最小のものが正しいというものである。これらは顔の候補の種として働き、アルゴリズムはこれを基点に他の顔を探索する。発見された顔の候補が所定の基準を満たせば、それらは正しいものであるとして許容される。そうでなければ、誤った顔の候補は識別され除去されると共に、新たに発見されたものに置き換わる。そして検定処理が繰り返される。このアルゴリズムは高速で信頼性が高く、平面多様体オブジェクト(planar-faced manifold object)や非多様体オブジェクトも扱うことができ、線画に複数の解釈方法があってもそれらを抽出することができる。多岐にわたる実験から、提案手法は従来手法が対応することのできなかったケースを含む、多くのケースを効率的に扱うことができることが示される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数の動的モデルと深層学習構造とを組み合わせた超音波データにおける左心室心内膜の追跡
Combining Multiple Dynamic Models and Deep Learning Architectures for Tracking the Left Ventricle Endocardium in Ultrasound Data

Carneiro, Gustavo University of Adelaide, Adelaide Nascimento, Jacinto C.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2592 - 2607 , November 2013

Keywords: Left ventricle segmentation, deep belief networks, discriminative classifiers, dynamical model, particle filters

我々は、超音波データにおける左心室心内膜追跡のための、新しい統計的パターン認識手法を紹介する。この課題は逐次重要度再サンプリングアルゴリズム(sequential importance resampling algorithm)として定式化される。このアルゴリズムでは、現時刻において期待される分割が、前時刻と現時刻との全ての画像を考慮した外観、形状、そして動作モデル、並びにこのアルゴリズムにより得られた前時刻の分割の輪郭とに基づいて推定される。新しい外観と形状のモデルでは、左心室のアフィン分割と非剛体分割とを分離し、処理時間を低減する。提案する動作モデルは、心収縮(systole)と心拡張(diastole)の動作パターン、そして深層ニューラルネットワーク(deep neural network)により構築された観測点分布(observation distribution)とを組み合わせる。提案手法の機能性を、16シーケンスの病理データで構成されるデータセットと4シーケンスの正常データで構成されるデータセットとを用いて評価する。両データセットとも左心室の長軸に沿ったデータである。病理データと正常データとから成る学習セットを用い、2つの正常データのテストシーケンスにおいて提案手法が最先端の心内膜追跡手法よりも高精度な結果を生成することを示す。様々な種類の心疾患(cardiopathy)を含む3つのテストシーケンスを用い、提案手法が患者を跨ぐ4種類の心疾患の統計的性質と良好に関連付くことを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


物体認識とモデル化のための詳細な三次元表現
Detailed 3D Representations for Object Recognition and Modeling

Zeeshan Zia, M. ETH Zurich, Zurich Stark, Michael Schiele, Bernt Schindler, Konrad

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2608 - 2623 , November 2013

Keywords: 3D representation, recognition, scene understanding, single image 3D reconstruction, ultrawide baseline matching

物体レベルの幾何学的三次元推定は、シーン認識の文脈において近年新たに注目を浴びている。しかし、幾何学的な詳細というレベルにおいては、一般に定性表現(qualitative representation)や大雑把な矩形領域(coarse boxes)の範囲に限定されている。これは、今日の物体クラス識別器が正確な三次元形状ではなく、頑健な二次元照合に最適化されているためであり、この問題はPascal VOCを初めとする外接矩形ベースのベンチマークデータセットが遠因となっている。本稿において我々は、コンピュータビジョンの黎明期のアイディア、具体的には物体認識のための詳細な三次元幾何学的な物体クラス表現(3D geometric object class representation)、を再評価する。これらの表現を用いることで、単に外接矩形を用いるよりも遥かに幾何学的に正確な物体仮説(object hypotheses)を復元できる。この仮説には、物体の姿勢や物体の構成要素の相対的な三次元位置を持つ三次元ワイヤーフレームが含まれる。形状記述や形状推論の頑健な手法と組み合わせることで、単眼三次元姿勢推定の課題において最先端の手法を凌駕する結果を得る。一連の実験を通して提案手法を詳細に分析し、この物体クラス表現を用いることで可能となる新たな応用用途を紹介する。この応用用途の例としては、三次元幾何に基づく自動車と自転車の詳細なカテゴリ識別やウルトラワイド・ベースラインマッチングが挙げられる。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


距離に基づく画像分類:ほぼゼロコストでの新規クラスへの汎化
Distance-Based Image Classification: Generalizing to New Classes at Near-Zero Cost

Mensink, Thomas University of Amsterdam Verbeek, Jakob Perronnin, Florent Csurka, Gabriela

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2624 - 2637 , November 2013

Keywords: Metric learning, image retrieval, k-nearest neighbors classification, large scale image classification, nearest class mean classification, transfer learning, zero-shot learning

本稿では、新たなクラスと学習画像を時間連続的に且つ無視できるコストで組み込める、大規模な画像分類手法について検討する。この目的を達するために、我々は二種類の距離に基づく分類器、具体的にはk最近傍(k-Nearest Neighbor, k-NN)分類器と最近接クラス平均(Nearest Class Mean, NCM)分類器、を検討すると共に、後者に新たな尺度学習手法を導入する。これに加え、NCM分類器の拡張版を導入することで、より豊かなクラス表現を可能とする。1,000クラス、100万枚の学習画像から成るImageNet 2010 challengeデータセットを用いた実験により、驚いたことに、NCM分類器はより柔軟なk-NN分類器に勝るとも劣らない性能を持つことが示される。更に、NCM分類器の性能は最高峰の性能を誇る線形SVMに比類する。我々は実験により、尺度の学習に用いられなかったクラスに対する汎化性能を検証する。1,000クラスから学習された尺度を用い、10,000クラスを含むImageNet-10Kデータセットに対して行った分類実験の結果から、NCM分類器は最先端技術よりも数桁高速でありながら同等の性能が得られることを示す。その上、少数の学習画像のみが与えられたときに、ImageNet階層に基づくゼロショットクラス事前確率(zero-shot class prior)によって、性能を向上させられることを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


新しいスパース性促進尺度によるグループごとの弾性的位置合わせ:心臓磁気共鳴灌流画像の位置合わせへの応用
Groupwise Elastic Registration by a New Sparsity-Promoting Metric: Application to the Alignment of Cardiac Magnetic Resonance Perfusion Images

Cordero-Grande, Lucilio University of Valladolid, Valladolid Merino-Caviedes, Susana Aja-Fernandez, Santiago Alberola-Lopez, Carlos

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2638 - 2650 , November 2013

Keywords: Groupwise elastic registration, cardiac magnetic resonance, myocardial perfusion, registration metric, sparseness

本稿では、新たな尺度の一群を用いたグループごとの位置合わせ手順に基づき、画像系列の接合部を同時に位置合わせする手法を提案する。この尺度は、位置合せされた点に対応する輝度の時間変化に期待されるスパース性を利用する。このため提案手法を用いることで、捉えられた症状が時間ごとに変化する画像系列の位置合わせを行うことができる。具体的には、我々はこの手法をコントラスト強調された心臓の初回灌流(first-pass perfusion)の磁気共鳴画像における動きの補正に用いる。時系列データは、先述の多画像尺度を用いると共に、介在する変換のパラメータを同時に最適化することで、全体として弾性的に位置合わせされる。提案する尺度は、時系列データにおいて対応する点の輝度の動的な変化が、適切に選択されたフレームにおいてスパースな表現を許すという仮定を置くことで、このような変化に対処することができる。手元にある課題に対する実験結果から、提案尺度は従来のグループごとの位置合わせ尺度と比較して、統計的に性能の大きな改善が見られることを示す。この課題は特に、弾性変形の補正と強く関連する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ラベル整合K-SVD:認識のための識別辞書学習
Label Consistent K-SVD: Learning a Discriminative Dictionary for Recognition

Jiang, Zhuolin University of Maryland, College Park Lin, Zhe Davis, Larry S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2651 - 2664 , November 2013

Keywords: Discriminative dictionary learning, discriminative sparse-code error, incremental dictionary learning, label consistent K-SVD, supervised learning

スパースコーディングに用いる識別辞書学習のためのラベル整合K-SVD(Label Consistent K-SVD)アルゴリズムを紹介する。訓練データのクラスラベルを利用するだけでなく、ラベル情報を各辞書要素(辞書行列の列)と関連付けることで、辞書の学習過程においてスパースコードに識別性(discriminability)を持たせる。より具体的には、「識別的スパースコード誤差」と呼ぶ新しいラベル整合制約を導入し、これを再構成誤差および識別誤差と組み合わせることで、統合目的関数を構築する。最適解はK-SVDアルゴリズムにより効率的に得る。提案アルゴリズムは過完備の辞書と最適な線形識別器とを同時に学習する。メモリリソースに制約がある条件で用いることのできる、増分辞書学習アルゴリズムを紹介する。このアルゴリズムは、同じクラスラベルの特徴点が類似するスパースコードを持つように辞書を構築する。実験結果により、顔、動作、シーン、そして物体分類の認識課題において、提案アルゴリズムは近年提案されたスパースコーディング手法を同じ学習条件下で凌駕することが示される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像分類のための潜在ディリクレ配分モデル
Latent Dirichlet Allocation Models for Image Classification

Rasiwasia, Nikhil Yahoo! Labs Bangalore, India Vasconcelos, Nuno

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2665 - 2679 , November 2013

Keywords: Image classification, attributes, graphical models, latent Dirichlet allocation, semantic classification

画像分類を目的とする潜在ディリクレ配分(Latent Dirichlet Allocation, LDA)の新しい拡張を二つ提案する。これらは、トピック教師付きLDA(topic-supervised LDA, ts-LDA)とクラス特定単純化LDA(class-specific-simplex LDA, css-LDA)である。画像分類に用いられている教師付きLDAモデルに対する分析から、これらのモデルによって検出されたトピックに対するクラス情報の影響は、一般的に極めて低いことが示される。このことは、検出されたトピックは、画像分類の意図に関する意味的規則性(semantic regularity)より、寧ろ一般的な画像的規則性(image regularity)に起因していることを示唆している。この問題に対処するために、ts-LDAモデルを導入することで、LDAによる自動的なトピック検出を分類意図に一致する特定トピックで置き換える。これにより従来のLDAモデルと比較して分類精度が向上するが、その代償としてLDAが持つ意図の予想外の構造を検出する能力が失われる。この制約を解消するために、画像特徴レベルにおけるクラス教師付き(class supervision)LDAモデルであるcss-LDAを導入する。css-LDAではトピックはクラスごとに検出されることから、複数のクラスに跨るトピックのあるセットは、クラス特有の複数のトピックで構成されるセットで置き換えられる。css-LDAモデルはトピック教師付き(topic-supervision)手法のラベリング強度とトピック検出の柔軟さとを併せ持つ。複数のベンチマークデータセットを用いた詳細な実験的評価を通じ、提案手法の有効性を示す。この中で、提案手法は従来のLDAベースの画像分類手法を凌駕する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ボックスカーネルを用いた学習
Learning with Box Kernels

Melacci, Stefano University of Siena, Siena Gori, Marco

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2680 - 2692 , November 2013

Keywords: Box kernels, Green's functions, kernel machines, propositional rules, regularization operators

入力空間の部分領域に対する教師事例や事前知識は、実世界の様々なコンテキストを対象とする分類器の性能向上を目的として、カーネルマシンに効果的に導入されている。提案されているソリューションは、点とセットの統合的訓練(unified supervision)に依存し、主に特定の最適化スキームに基づいており、一般的にはカーネル関数が点のみに作用する。本稿では、ボックスカーネルと呼ばれる特殊なクラスのカーネルの選択を支援するために、変分法を拡張した手法を用いる。ボックスカーネルは正則化演算子(regularization operator)と関連付くカーネル関数を選択することで直接的に生み出される。最適なカーネルは正則化演算子の選択の結果として出現するため、入力空間の部分領域で訓練することにより導出される構造を導入するためのカーネルを探索する必要がないことが証明されている。既存の大多数の結果はセットに対するものであるが、我々はラベル付けが命題記述(propositional description)と関連付くボックスに注目する。様々な仮定に基づき、幾つかの代表者定理(representer theorem)は解構造をボックスカーネルの拡張として規定する。医療診断、画像分類、そして文章分類の課題において、良好な結果が示される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ガウス過程を用いた線形潜在力モデル
Linear Latent Force Models Using Gaussian Processes

Alvarez, Mauricio A. Universidad Tecnol?gica de Pereira, Colombia Luengo, David Lawrence, Neil D.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2693 - 2705 , November 2013

Keywords: Gaussian processes, differential equations, dynamical systems, motion capture data, multitask learning, spatiotemporal covariances

機械学習において、純粋なデータ駆動のアプローチは、モデルの複雑度に対してデータが疎である場合やモデルが外挿を伴う場合において課題が生じる。一方で、純粋な機械論的アプローチ(mechanistic approach)は、課題における全ての相互作用を事前に特定し明示する必要がある(これは実用的ではない)だけでなく、依然としてシステムをいかにパラメータ化するかという課題が残る。本稿において我々は、ガウス過程と微分方程式とを用いることでデータ駆動モデルとシステムの物理モデルとを組み合わせる、ハイブリッドなアプローチを提示する。物理現象からヒントを得た(physically inspired)様々なカーネル関数が、直感的(sensible)で、単純で、尚且つ機械論的な仮説に基づいて構築できることを示す。提案手法の汎用性を、モーションキャプチャ、計算生物学、そして地球統計学の三つのケーススタディーを通じて示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


低レート符号化と同時発生処理を用いたフレーム駆動からフレームなしイベント駆動ビジョンシステムへのマッピング - フィードフォーワードConvNetsへの応用
Mapping from Frame-Driven to Frame-Free Event-Driven Vision Systems by Low-Rate Rate Coding and Coincidence Processing--Application to Feedforward ConvNets

Perez-Carrasco, Jose Antonio University of Sevilla, Spain Zhao, Bo Serrano, Carmen Acha, Begona Serrano-Gotarredona, Teresa Chen, Shouchun Linares-Barranco, Bernabe

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2706 - 2719 , November 2013

Keywords: Feature extraction, bioinspired vision, convolutional neural networks, event-driven neural networks, high speed vision, object recognition, spiking neural networks

イベント駆動のビジョンセンサは多種多様な研究機関から注目を浴びている。このセンサは、所定の「フレームレート」で描画された静止画像系列から成る従来のビデオシステムとは大きく異なる形式の視覚情報を提供する。イベント駆動のビジョンセンサは生物学にヒントを得ている。フレームという概念は存在せず、各画素は意味のある何かが発生したことを検知すると、イベント(スパイク波)を送信する。イベント駆動センサの一形態には、各画素が光量や「時間対比(temporal contrast)」の相対変化を計算する、動的ビジョンセンサ(Dynamic Vision Sensor, DVS)と呼ばれるものがある。このセンサの出力は、シーンにおける動物体を表す画素イベント(pixel event)の連続的な流れで構成される。画素イベントは「実世界」と比較してマイクロ秒オーダーの遅延で得られる。これらのイベントは、連続的に配置されたイベント(畳み込み)プロセッサによって「それらが流れていく中で(as they flow)」処理することができる。この結果、入力イベントフローと出力イベントフローとは、実用時間的には同時発生するとみなせ(practically coincident in time)、センサが十分な量の意味のあるイベントを提供しだい物体を認識することができる。本稿において我々は、従来のフレーム駆動の表現形態における適切に訓練されたニューラルネットワークからイベント駆動の表現形態へのマッピングを行う方法を提示する。この手法は、回転する人間のシルエットや高速なポーカーカードのシンボルを認識するように訓練された、イベント駆動のコンボリューション・ニューラルネットワーク(Convolution neural Network, ConvNet)を調査することで説明する。このイベント駆動のConvNetは、実際のDVSカメラから得られた情報が与えられる。またこのイベント駆動のConvNetは、個別の製造されたハードウェアモジュールから得られた特性を用いた多数のイベント駆動処理モジュールにより構成された、専用のイベント駆動シミュレータによりシミュレートされる。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多視点画像分割を用いたマーカレス・モーションキャプチャ
Markerless Motion Capture of Multiple Characters Using Multiview Image Segmentation

Liu, Yebin Tsinghua University, Beijing Gall, Juergen Stoll, Carsten Dai, Qionghai Seidel, Hans-Peter Theobalt, Christian

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2720 - 2735 , November 2013

Keywords: Markerless motion capture, image segmentation, multiple characters, multiview video, Estimation, Humans, Image segmentation, Joints, Optimization, Shape

複数の緊密に相互作用を行う人々のスケルトンモーションと時間変動する詳細な表面形状をキャプチャすることは、複数台のカメラを用いる環境下であっても極めて困難な課題である。これは頻繁に生じる遮蔽と、特徴と人物との間の対応付けに生じる曖昧さに起因している。この課題を解決するために、我々は多視点画像分割を用いたフレームワークを提案する。このために、確率的な形状と外観モデルを導入し、入力画像を分割すると共に各画素を一人の人物のみに割り当てる。各人物の多節テンプレートモデルとラベル付けされた画素が与えられると、結合最適化法(combined optimization scheme)を各個人に対して個別に適用し、続いて詳細な非剛体変形を捉えるための表面推定を行う。結合最適化スキームでは、スケルトンの姿勢最適化問題を、局所最適化問題とより低次元な大域最適化問題とに分解する。多様な画像系列において、人物が高速に移動していたり、多様な衣類を身につけていたり、ダンス、レスリング、抱擁を含む高難易度の多人数の運動が存在していたりしても、提案するアプローチが人物の三次元運動を正確に捉えられることを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


無秩序な生物学画像系列のための多仮説追跡
Multiple Hypothesis Tracking for Cluttered Biological Image Sequences

Chenouard, Nicolas New York University School of Medicine, New York Bloch, Isabelle Olivo-Marin, Jean-Christophe

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2736 - 3750 , November 2013

Keywords: Particle tracking, biological imaging, cluttered images, multiple hypothesis tracking, target perceivability

本稿では、近年の生物学において非常に重要な、生物学画像系列における何千ものターゲットを同時追跡する手法を提示する。この課題の複雑度と固有のランダム性から、我々は顕微鏡画像における生物学的粒子の追跡を行う統合確率的フレームワーク(unified probabilistic framework)を提案する。本フレームワークは、粒子の運動と存在、そして蛍光画像特徴の現実的なモデルを含む。軌跡抽出処理には、それ自体の極めて無秩序な条件から、劣悪な撮像環境やランダムな対象の移動に対する追跡判断の頑強性を高めるために、マルチフレーム・アプローチの適用が促される。我々はこの課題の規模の大きさに対処するために、提案するフレームワークに多仮説追跡アルゴリズムを導入することで、追跡処理におけるモデル複雑度と計算コストとの適切なトレードオフを実現する。生体イメージングの最先端追跡技術と比較すると、提案アルゴリズムは劣悪な撮像条件やターゲットが密に存在する条件下において高品質な結果が得られる唯一の手法である。動的な生物学的プロセス(dynamical biological process)の正確な計算モデル化において、改良ベイズ追跡手法(advanced Bayesian tracking technique)の利点を示す。この結果は、提案手法がこの分野における更なる開発に有望であることを示唆している。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


木構造グラフィカルモデルを用いた半教師つきビデオ分割
Semi-Supervised Video Segmentation Using Tree Structured Graphical Models

Badrinarayanan, Vijay University of Cambridge, Cambridge Budvytis, Ignas Cipolla, Roberto

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2751 - 2764 , November 2013

Keywords: Semi-supervised video segmentation, label propagation, mixture of trees graphical model, structured variational inference, tree-structured video models, Computational modeling, Graphical models, Image segmentation, Inference algorithms, Probabilistic logic, Vegetation, Video sequences

我々は、半教師つきビデオ分割を目的とする新しいパッチベースの確率的グラフィカルモデルを提案する。提案するモデルの中核には、ビデオ信号系列の隣接フレーム間でパッチを対応付ける、時間的な木構造(temporal tree structure)がある。これにより、伝統的な短時間のウィンドウベースのビデオ処理や瞬時の意思決定に頼ることなく、画素単位のラベルを正確に推定することができる。我々のアルゴリズムの入力はビデオ信号系列のラベル付けされたキーフレームであり、出力は画素単位のラベルとその確信度である。我々は、画素単位のラベルとその事後確率を推定するために、時間的な木構造に対して正確な推定を行う効率的な推定スキームと、必要に応じて実行できる確率伝播法(loopy belief propagation)を用いたフレーム単位のラベル平滑化ステップとを提案する。得られた事後確率は、確率的決定森(Random Decision Forest)を半教師つき学習することで画素の独立性(pixel unary)を学習するために用いる。この独立性は、分割精度を向上させるための二回目の反復において用いる。提案するアルゴリズムの効果を、幾つかの定量的テストと定性的テストを通じて示す。このテストでは、公開データセットと独自データセットとを用い、前景/背景分割と多クラス分割の両問題に対して実施する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スパース部分空間クラスタリング:アルゴリズム、理論、そして応用
Sparse Subspace Clustering: Algorithm, Theory, and Applications

Elhamifar, Ehsan Johns Hopkins University, Baltimore Vidal, Rene

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2765 - 2781 , November 2013

Keywords: $(ell_1)$-minimization, High-dimensional data, clustering, convex programming, face clustering, intrinsic low-dimensionality, motion segmentation, principal angles, sparse representation, spectral clustering, subspaces, Clustering algorithms, Computer vision, Face, Noise, Optimization, Sparse matrices, Vectors

多くの実世界の課題は、画像、ビデオ、テキストやウェブドキュメント、DNAマイクロアレイ・データなど高次元データのコレクションを取り扱う。このような高次元データは多くの場合、そのデータが属する幾つかのクラスやカテゴリと対応する低次元構造と密接に関連付いている。本稿において我々は、低次元部分空間の集合に属するデータのクラスタリングを目的に、スパース部分空間クラスタリング(sparse subspace clustering)と呼ぶアルゴリズムを提案し検討する。鍵となるアイディアは、ある点を他の点に基づいて表現する無数の選択肢の中で、スパースな表現は同じ部分空間から少数の点を選択することに相当するというものである。即ち、スパース最適化プログラム(sparse optimization program)の解を求めることで、データを部分空間へとクラスタリングするためのスペクトルクラスタリング・フレームワーク(spectral clustering framework)に利用できる。スパース最適化プログラムを解くことは一般にNP困難であるため、我々は凸緩和を検討し、部分空間の配置やデータ分布に関する適切な制約の基では、提案する最小化プログラムは目的とするスパース表現を復元することができることを示す。提案するアルゴリズムは効率的であると共に、部分空間の重なりの近傍に存在するデータを扱うことができる。最先端手法と比較した提案手法のもう一つの重要な利点は、スパース最適化プログラムにデータのモデルを導入することで、ノイズ、疎な外れ値、そして欠損値など妨害(nuisance)を直接扱うことができることにある。提案手法の有効性を合成データと実世界の2種類の課題(動作分割と顔分類)とを用いた実験により示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Actomによる動作の時間的検出
Temporal Localization of Actions with Actoms

Gaidon, Adrien LEAR team, Montbonnot Harchaoui, Zaid Schmid, Cordelia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2782 - 2795 , November 2013

Keywords: Action recognition, actoms, temporal localization, video analysis

我々は、長時間の高難易度なビデオデータにおけるドアの開放などの動作を検出する課題を取り上げる。我々はactomと呼ぶ微小動作単位(atomic action unit)の系列に基づくモデルを提案する。actomは特定の動作において意味的に重要(semantically meaningful)で且つ特徴的である。actom系列モデル(actom sequence model)は、ある動作をactom固有の視覚的特徴のヒストグラム系列として表現する。これはbag-of-featuresを拡張し、時間的構造を導入したものとみなすことができる。訓練時には、動作事例においてactomにアノテーションをつける必要がある。実験時には、actom分布のノンパラメトリックモデルに基づいて、actomが自動的に局在化される。このモデルは、動作の時間的構造に対する事前知識としての役割も担う。最新のベンチマークデータセットであるCoffee and CigarettesとDLSBPとを用いた実験結果を示す。更に、提案手法を検出による分類条件(classification-by-localization set-up)に適用し、高難易度のHollywood 2データセットに対する適応性を実証する。提案手法が時系列データ中の動作検出における最先端の手法や、移動窓法を用いた動作検出のベースライン手法を凌駕することを示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時系列データ分類のためのBag-of-Featuresフレームワーク
A Bag-of-Features Framework to Classify Time Series

Baydogan, Mustafa Gokce Arizona State University, Tempe Runger, George Tuv, Eugene

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2796 - 2802 , November 2013

Keywords: Supervised learning, codebook, feature extraction

多くの高難易度の応用用途において、時系列データの分類は重要な課題である。このコンテキストにおいて、動的時間伸縮(Dynamic Time Warping, DTW)距離を用いた最近傍分類器は有望な解決策である。一方で特徴ベースの手法は、分類器を構築したり時系列データに知見を導入したりするために提案されている。しかし、これらの手法は局所パターンの移動や拡大に対応できない。これらの課題に鑑みて、我々は時系列データのbag-of-features表現(Time Series based on a Bag-of-Features representation:TSBF)を行うためのフレームワークを提案する。時系列データからランダムな位置をランダムな長さだけ抽出した複数の部分系列は、局所情報を捉えるためにより短い間隔に分割される。この結果、これらの部分系列から算出された特徴量は、元の系列から見ると様々な位置と倍率における特性を計測していることになる。更に、(混合データ種別や様々な単位などを扱う)教師付き学習器を用いてクラス確率推定を行うことで、局所情報をコンパクトなコードブックへとまとめることができる。これに加え、関連する大域特徴を用いてコードブックを簡単に拡充することもできる。TSBFを最近傍分類器や他の代替手段(bag-of-words戦略、疎な空間サンプルカーネル、shapelets)と比較する。実験結果から、UCR時系列データベースのベンチマークデータセットに対して、TSBFは競合手法を上回ることが示される。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多重動作系列の位置合わせのための条件付き位置合わせ確率場
Conditional Alignment Random Fields for Multiple Motion Sequence Alignment

Kim, Minyoung Seoul National University of Science and Technology, Seoul

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2803 - 2809 , November 2013

Keywords: Conditional random fields, dynamic time warping, probabilistic models, sequence alignment

我々は、類似する人間活動を記録した複数の動画を同期させる課題に焦点を当てた、多重時系列位置合わせ問題(multiple time-series alignment problem)を取り上げる。反復ペアワイズ変形アルゴリズム(iterative pairwise warping algorithm)や隠れマルコフモデルの拡張を初めとする幾つかの近似解法が存在するが、多重系列の大域的位置合わせの最適解を見つけることは現実的ではない。本稿において我々は、隠れ位置合わせ変数(hidden alignment variable)により観測系列と位置合わせされた潜在対象系列(latent target sequence)の条件付き密度を表す、新しい確率モデルを提案する。学習過程において対象系列に所定の制約を課すことで、EMアルゴリズムにより極めて効率的に学習することのできる実用的なモデル(sensible model)を構築し、多重位置合わせに利用できる。既存手法と比較して、提案するアプローチはより高精度な位置合わせを実現すると共に、局所解や初期設定に対して頑健である。提案手法の有効性を、合成データと表情や人間活動を含む実世界の動画を用いて示す。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顕著性推定のための低次空間分光グループ化
Low-Level Spatiochromatic Grouping for Saliency Estimation

Murray, Naila Universitat Aut?noma de Barcelona in Bellaterra, Spain Vanrell, Maria Otazu, Xavier Parraga, C.Alejandro

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 11, pp. 2810 - 2816 , November 2013

Keywords: Computational models of vision, color, hierarchical image representation

我々はSIM(Saliency by Induction Mechanisms)と呼ぶ、色誘導現象(chromatic induction phenomena)の推定に有効な低次空間分光モデル(low-level spatiochromatic model)に基づく顕著性モデルを提案する。このために、画像の詳細を強調したり抑制したりする低次の視覚構造が一部の画像領域をより顕著にする原因である、という仮説を立てる。更にSIMは、角など複雑な低次特徴を強調し、エッジなど相対的に単純な特徴を抑制するために、幾何学的グループレット(geometrical grouplets)を導入する。提案モデルは心理色誘導データに適合させているため、概ねノンパラメトリックである。2種類のデータセットと2種類の尺度を用いた注視点の推定課題において、SIMは最先端の手法を凌駕する。

SN

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.35, No.12


単一の奥行き画像に基づく効率的な人の姿勢推定
Efficient Human Pose Estimation from Single Depth Images

Shotton, J. , Microsoft Res., Cambridge, UK Girshick, R. Fitzgibbon, A. Sharp, T. Cook, M. Finocchio, M. Moore, R. Kohli, P. Criminisi, A. Kipman, A. Blake, A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 2821 - 2840 , December 2013

Keywords: pose estimation, shape recognition, body shape, consumer hardware, efficient human pose estimation, field-of-view cropping, imaging modalities, per-pixel classification, single depth images, synthetic set, temporal information, training images, Computer vision, depth cues, games, machine learning, pixel classification, range data, Cameras, Feature extraction, Human factors, Pose estimation, Rendering (computer graphics), Shape analysis

本稿では人の姿勢を推定するための2つの新しいアプローチを紹介する。両者とも、単一の奥行き画像から他の時間情報を用いずに、高速且つ正確に体の関節の三次元位置を予測することが出来る。これらのアプローチの鍵となるのは、現実的な様々な姿勢の画像を含む大規模な合成画像の訓練集合を利用することである。これにより、姿勢、体形、画像における人の位置、及び着衣などの要因に対して高度に頑健なモデルを学習することが出来る。第一のアプローチでは、画素単位での識別により関節の位置決めを行うために中間的なパーツ表現を用いている。第二のアプローチでは、前者と異なり直接的に関節位置を算出する。単純な奥行き画素比較特徴と並列化可能な決定林(parallelizable decision forests)を用いることで、これらのアプローチは一般に入手可能なハードウェアでさえも超リアルタイムな高速処理が出来る。様々な観点から我々の方法について評価・検証し、この2つのアプローチ間、及び他の最新の手法との比較を行った。シルエット画像を用いた実験の結果は、他の画像属性に対する広範な適用性を示している。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルコフ確率場を用いた動きからの構造復元:大規模な動きからの構造復元のための離散?連続最適化
SfM with MRFs: Discrete-Continuous Optimization for Large-Scale Structure from Motion

Crandall, D.J. , Dept. of Comput. Sci., Cornell Univ., Ithaca, NY, USA Owens, A. Snavely, N. Huttenlocher, D.P.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 2841 - 2853 , December 2013

Keywords: Markov processes, image reconstruction, optimisation, MRF, SfM, VP estimates, bundle adjustment, continuous Levenberg-Marquardt refinement, discrete Markov random field, hybrid discrete-continuous optimization, large-scale photo collections, large-scale structure, noisy geotags, structure from motion, vanishing point estimates, 3D reconstruction, Markov random fields, Structure from motion, belief propagation, Belief propagation, Cameras, Image reconstruction, Motion analysis, Noise measurement, Optimization, Robustness

動きからの構造復元(Structure from Motion: SfM)の最近の研究では、インターネットからダウンロードした大規模な画像集合を用いた学習による三次元モデルが利用されている。この問題に対する多くのアプローチでは、漸増アルゴリズムにより段階的により大きな束調整問題(bundle adjustment)を解けるようにしていく。しかし、これらの漸増手法は、画像集合のサイズ増大についていけるほどのスケーラビリティはなく、ドリフトや極小値問題もある。本稿では、離散?連続ハイブリッドな最適化を用いた疎な初期解の検出と、それに続く束調整を用いた解の更新に基づくフレームワークを示す。これは漸増アルゴリズムの代用となるものである。上記の初期最適化ステップでは、離散マルコフ確率場(MRF)を連続Levenberg-Marquardt更新と組み合わせて用いることで定式化している。この定式化では、ノイズを含むジオタグや消失点推定などを含む、カメラと特徴点両方に関する様々な情報源を自然に統合することが出来る。我々の手法を、カメラ位置の測量を含むものを含むいくつかの大規模な写真集合に対して試験した。その結果、我々のアプローチは、漸増的束調整アルゴリズムに基づくモデルと同等か、より良いモデルを生成できること、そしてより頑健で計算もはるかに速いことが示される。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


フレーズ認識
Phrasal Recognition

Farhadi, A. , Dept. of Comput. Sci. & Eng., Univ. of Washington, Seattle, WA, USA Sadeghi, M.A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 2854 - 2865 , December 2013

Keywords: image coding, inference mechanisms, object detection, object recognition, PASCAL object categories, complex visual composites, detector output decoding, inference problems, local context, multiclass detection system, nonmaximum suppression, object appearance, object detectors, phrasal detectors, phrasal recognition, visual complexity, visual phrase detector, visual phrase training sets, Visual phrase, object interactions, object recognition, object subcategories, phrasal recognition, scene understanding, single image activity recognition, visual composites, Complexity theory, Data visualization, Decoding, Detectors, Image processing, Object recognition

本稿では「馬に乗っている人」というような複雑な画像コンテンツ複合物としての「画像フレーズ」を導入する。しばしば画像フレーズは、その構成要素に比べて顕著に低い画像複雑性を持つことがある。これは、これらの構成要素が特定の関係を持って画像中にある場合、外観が大きく変化するためである。このフレーズ認識に適したデータセットを紹介する。このデータセットは良く知られたPASCALのオブジェクトカテゴリを踏襲しており、画像フレーズの利点により、顕著な性能の向上が実験により確認される。画像フレーズ認識のための訓練集合は、各構成要素の訓練集合よりも小さくなる傾向があるにもかかわらず、画像フレーズ検出器は、各構成要素オブジェクトを検出してその関係を理由付けるようなベースラインとなる従来手法を顕著に上回る性能を示している。すべてのマルチスケール検出システムは、検出器の出力をデコードして最終結果を得る構成をもつ必要がある。この構成は多くの場合非最大値抑制(nonmaximum suppression)によりなされる。本稿では、困難な推測問題を解く必要なく局所コンテキストを正確に反映するような、新たなデコード手法について説明する。このデコード手法が他の最新の手法を上回る性能を持つことを示す。最後にフレーズ検出器とオブジェクト検出器の結果の組み合わせでコードが、全体の検出性能を大幅に改善することを示す。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


照明に対して従属的可変及び不変な色情報を用いた、画像に基づく反射成分と蛍光成分の分離
Image-Based Separation of Reflective and Fluorescent Components Using Illumination Variant and Invariant Color

Zhang, C. Sato, I.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 2866 - 2877 , December 2013

Keywords: computer vision, fluorescence, image colour analysis, image representation, independent component analysis, lighting, reflectivity, ICA, clothes, color appearance algorithm, color appearance representation, complexity, computer vision, corals, fluorescence phenomenon, gems, illumination variant, image processing, image-based fluorescent component separation, image-based reflective component separation, independent component analysis, invariant color, linear model, ordinary reflectance, writing paper, Reflectance components separation, diffuse reflection, fluorescence emission, illumination, Emissions, Fluorescence, Image color analysis, Light sources, Lighting, Surface waves, Wavelength measurement

その複雑性ゆえに、これまでコンピュータビジョンや画像処理では色表現アルゴリズムから蛍光成分が除外されてきた。現実には蛍光成分は非常に一般的な現象であり、宝石や珊瑚、様々な種類の紙、及び衣類など多くのオブジェクトで観測されるものである。本稿では蛍光発色現象についての詳細な理論を与える。特に、通常の反射成分とは異なり、蛍光成分の色の見えは照明に依存しないこと、更に、蛍光成分と反射成分を持つオブジェクトの色の見えは、これら2つの線形結合で表すことができることを示す。この線形モデルにより、独立成分分析を行うことで未知の照明環境で撮像された画像からこれら2つの成分を分離することが可能となる。様々な蛍光オブジェクトのデジタル画像を用いた実験より提案手法の効果を示す。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パーツの柔軟な混合による多関節オブジェクトとしての人の検出
Articulated Human Detection with Flexible Mixtures of Parts

Yi Yang , Dept. of Comput. Sci., Univ. of California at Irvine, Irvine, CA, USA Ramanan, D.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 2878 - 2890 , December 2013

Keywords: dynamic programming, image representation, object detection, pose estimation, solid modelling, support vector machines, Buffy datasets, Parse datasets, articulated human detection, articulation modeling, cooccurrence relations, deformable part model representation, dynamic programming, flexible mixture model, flexible part mixtures, global geometry dependency, human pose estimation, local mixtures, nonoriented parts, similar warps, spatial relations, standard pictorial structure models, static images, structured SVM solver, warped templates, Pose estimation, articulated shapes, deformable part models, object detection, Computational modeling, Deformable models, Human factors, Object segmentation, Pose estimation, Shape analysis

画像中の関節で接続された人体の検出及び姿勢推定のための方法について説明を加える。本手法は新たに開発した可変パーツモデル表現に特徴がある。関節での接続をモデル化するために、従来のように変形(回転及び短縮)テンプレートの類を用いるのではなく、小型の、非方位選択性のパーツの組み合わせ(混合)を用いる。空間的関係のみを符号化する標準的な写真構造モデルを拡張・補強するような、一般的且つ柔軟な混合モデルについて説明する。この方法では、パーツ位置間の空間関係とパーツ混合間の共起関係を統合的に取り扱う。我々のモデルは以下のようないくつかの重要な性質を持つ。1)類似した変形間で、計算を共用化することで、関節で接続されたオブジェクトを効率的にモデル化する。2)局所混合の合成による指数関数的に大きい大域混合の効率的なモデリング。3)大域的幾何特性の、局所的な見えへの依存性(異なる場所で異なる見えを持つパーツ)。上記の関係性が木構造を持っている場合、我々のモデルは動的計画法で効率的に最適化することが出来る。局所的な見え、空間的関係、及び(局所的な剛性をエンコードする)共起関係を含むすべてのパラメタを、構造化SVMソルバを用いて訓練する。我々のモデルは多重スケール画像のすべての位置をしらみつぶしにする検出器として用いることが出来るほど充分効率的であるため、姿勢推定と人検出それぞれのタスク、及びこれらのタスクの組み合わせタスクのための新たなクライテリアを導入する。ほとんどの既存のアプローチでは、四肢のモデルとして剛体が関節でつながっているテンプレートを想定し、これらが相互に依存しないようにモデルパラメタの学習を行う形式をとっている。これに対して我々の検討では大規模な診断型評価をおこなった結果、柔軟な構造及び共学習(joint training)が高い性能を実現するための鍵となることを洗い出した。標準的なベンチマークデータを利用した実験の結果、姿勢推定において我々のシステムが最も優れた性能を持っていること、及び困難なParse and Buffyデータセットにおいては従来の手法の性能を上回る性能を持ちつつ、一桁以上高速な処理が出来ることが示された。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


BabyTalk: 単純な画像記述子の理解と生成
BabyTalk: Understanding and Generating Simple Image Descriptions

Kulkarni, G. , Comput. Sci. Dept., Stony Brook Univ., Stony Brook, NY, USA Premraj, V. Ordonez, V. Dhar, S. Siming Li Yejin Choi Berg, A.C. Berg, T.L.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 2891 - 2903 , December 2013

Keywords: computer vision, data mining, image recognition, natural language processing, text analysis, BabyTalk, best content words, computer vision-based detection algorithm, computer vision-based recognition algorithm, content planning, forced choice human evaluations, image descriptions, natural language description generation, natural language sentences, statistics mining, surface realization step, visually descriptive text, Computer vision, image description generation, Computer vision, Context awareness, Image segmentation, Information analysis, Natural language processing

画像から自然言語による記述を自動的に生成するシステムを紹介する。このシステムは2つの処理段からなる。最初の処理段はコンテンツプラニングであり、コンピュータビジョンに基づくオブジェクト検出と認識のためのアルゴリズムの出力を平滑化するものであり、これにより、ある画像を記述するために最適なコンテンツ語を決定するための画像記述語の大規模集合を統計的にマイニングする。第二の処理段は表面実現(surface realization)であり、この段では予測されたコンテンツと自然言語の一般的な統計量に基づいて自然言語センテンスを構築する単語を選択する。この表面実現ステップに対して複数のアプローチを紹介し、人間が生成したリファレンスとしての記述との類似性を自動的に計算することで、これらを評価する。提案手法で生成した記述と、他のアプローチで生成したそれとを、被験者に強制的にどちらかを選択させる方法で評価実験を行った。提案システムは与えられた画像に対して関連するセンテンスを生成するのに極めて効果的だったのに加え、既存手法に比べて記述がより正確だった。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


反射率のスパース表現を用いた固有画像分解
Intrinsic Image Decomposition Using a Sparse Representation of Reflectance

Li Shen , Inst. for Infocomm Res., Singapore, Singapore Chuohao Yeo Binh-Son Hua

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 2904 - 2915 , December 2013

Keywords: image colour analysis, image representation, image resolution, minimisation, reflectivity, wavelet transforms, chromaticities, data-driven second-generation wavelet representation, global sparse constraint, intrinsic image decomposition, l, local reflectance, material color, natural image, natural images, reflectance color, reflectance component recovery, reflectance sparsity, shading component recovery, sparse reflectance representation, sparsity constraint, Intrinsic image decomposition, multiresolution analysis, sparse reconstruction, Image color analysis, Image decomposition, Image edge detection, Multiresolution analysis, Reflectance, Wavelet transforms

固有画像分解(intrinsic image decomposition)は、単一の画像からシェーディング及び反射成分を復元するという重要な問題である。これは本質的に不良設定問題であるため、本稿では我々が開発した反射率スパース性事前知識(reflectance sparsity prior)を用いた固有画像分解のための新たなアプローチを提案する。我々の反射率スパース表現は、通常の場合隣接する画素のうち類似した色度を持つものは、同じ反射率を持っている、という単純な観測事実に基づいている。このスパース拘束条件を定式化し、局所反射率に適用することで、データ駆動型の二次生成ウェーブレット表現を構成する。自然画像の反射率成分が、この表現においてスパースであることを示す。更に本稿では自然画像が素材の色の小規模の組で表現できるという前提を用いて、大域的スパース性拘束条件を定式化して提案する。このスパース反射率表現と反射光の色のスパースセットに対する大域的拘束条件を用いて、効率的にとくことが可能な本質的画像分解のための制約付$(l_1)$ノルム最小化問題を定式化する。我々のアルゴリズムは、色モデルやユーザインタラクションを用いることなく、単一の画像から固有画像(intrinsic image)をうまく抽出することが出来る。様々な画像を利用した実験により、提案手法の効果が示される。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


反復的量子化:大規模な画像検索のための二値符号化学習に対するプロクラステス(Procrustean)アプローチ
Iterative Quantization: A Procrustean Approach to Learning Binary Codes for Large-Scale Image Retrieval

Yunchao Gong , Dept. of Comput. Sci., Univ. of North Carolina at Chapel Hill, Chapel Hill, NC, USA Lazebnik, S. Gordo, A. Perronnin, F.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 2916 - 2929 , December 2013

Keywords: binary codes, image coding, image retrieval, iterative methods, CCA, ITQ, ImageNet data set, PCA, Procrustean approach, canonical correlation analysis, classemes, dubbed iterative quantization, large scale image collections, large scale image retrieval, learning binary attributes, minimization algorithm, nonlinear kernel mapping, orthogonal Procrustes problem, quantization error, similarity preserving binary codes learning, similarity search, spectral clustering, supervised embeddings, unsupervised data embeddings, zero centered binary hypercube, zero centered data, Large-scale image search, binary codes, hashing, quantization, Binary codes, Encoding, Iterative methods, Linear programming, Principal component analysis, Quantization

本稿では大規模な画像集合に対する効率的な類似検索のための類似性を保持した二値符号の学習問題を取り扱う。この問題をゼロ中心データの回転角の算出問題として定式化し、これにより、このデータを様々なゼロ中心超立方体の頂点に対してマッピングする際の量子化誤差を最小化する。更にこのタスクのための単純且つ効率的な交換最小化アルゴリズムを提案する。我々が反復的量子化(iterative quantization: ITQ)と呼ぶこのアルゴリズムは、マルチクラススペクトラルクラスタリング及び直交プロクラステス(Procrustes)問題に関係し、PCAのような教師無しデータ埋め込みや正準相関分析(canonical correlation analysis: CCA)のような教師付き埋め込みの両方に対して用いることができる。このアルゴリズムの出力として得られる二値符号は他の最新の手法のそれを大きく上回る性能を持っている。このデータを、非線形カーネルマッピング事前知識をもとにPCAもしくはCCAに対して変換することで、更に性能向上が可能であることを示す。最後に、ImageNetデータセットに対する二値特性や「classems」の学習というITQの応用を示す。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


標本のコンセンサスを用いた顔構成要素の位置決め
Localizing Parts of Faces Using a Consensus of Exemplars

Belhumeur, P.N. , Dept. of Comput. Sci., Columbia Univ., New York, NY, USA Jacobs, D.W. Kriegman, D.J. Kumar, N.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 2930 - 2940 , December 2013

Keywords: biometrics (access control), face recognition, nonparametric statistics, optimisation, Bayesian objective function, BioID dataset, LFPW, LFW, global models, hand-labeled exemplar images, hidden variables, human face part localization, labeled face parts in the wild, lighting, local detectors, nonparametric set, occlusion, part locations, real-world face datasets, Part localization, biometrics, faces, fiducial points, Biometrics, Detectors, Facial features, Feature extraction, Shape analysis

本稿ではヒトの顔の構成要素の位置決めのための新しいアプローチを紹介する。このアプローチは、1000を超える手動でラベル付けされた標本画像をもとにした、局所特徴検出器と構成要素の位置決めのため大域モデルの非線形セットを組み合わせている。この大域モデルが構成要素の位置情報を隠れ変数として生成すると仮定することで、ベイズ目的関数を導出する。この目的関数をこれらの隠れ変数に対するモデル間のコンセンサスを用いて最適化する。本アプローチで得られる位置決め器は、従来の手法よりも多くの種類の表情、姿勢、照明条件、および隠蔽条件を取り扱うことができる。実世界の顔画像データセットに対して行った実験は優良な成績を示している。この実験では自然背景で撮像したラベル付き顔画像(Labeled Faces in the Wild:LFW)と、最近整備された、自然背景で撮像したラベル付き顔構成要素(Labeled Face Parts in the Wild: LFPW)を用いて行われ、技術的な困難の少ないBioIDデータセットにおいては、我々の位置決め器が他の最新の手法と伍する性能を持つことを示している。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


未知の等方BRDFのための微分測光復元について
On Differential Photometric Reconstruction for Unknown, Isotropic BRDFs

Chandraker, M. , NEC Labs. America, Inc., Cupertino, CA, USA Jiamin Bai Ramamoorthi, R.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 2941 - 2955 , December 2013

Keywords: computational geometry, gradient methods, image sequences, photometry, stereo image processing, surface reconstruction, chain rule differentiation, comprehensive theory, constant depth, differential photometric reconstruction, geometric reconstruction, image derivatives, isotropic BRDF, lower order derivatives, optical flow, photometric flow, photometric invariants, photometric stereo, photometric surface reconstruction, shape-from-shading, spatial image derivative, surface depth, surface geometry, surface gradient, surface information, surface normal, temporal image derivative, Surface reconstruction, differential theory, general BRDF, photometric invariants, Differential theory, Image reconstruction, Light sources, Lighting, Photometric measurements, Surface reconstruction

本稿では、一般的な未知の等方BRDF条件下での、微分画像からの測光的表面復元に関する包括的な理論を述べる。ここでは的確な複数の位相クラスを導出する。これらのクラスのうち、あるクラスまでの情報を利用することで復元するべき表面を決定することができ、また、完全な幾何的復元のための厳密な事前確率分布を特定することができる。これらの結果は、次の一連の基礎的な洞察の上に成り立っている。先ず、合成関数微分の線形性を利用して、表面形状の画像微分に関連する等方的BRDFの形式によらない測光的不変量を見つける。次いで、陰影からの形状復元(shape-from-shading)の問題に対しては、復元が勾配の等高線として機能できる可能性があることを示す。そして、測光立体視(photometric stereo)の問題に対しては、円周上の未知の光源方向からの、空間的および時間的な画像微分の2つの計測値だけで、測光的不変量からの表面情報を復元するには十分であることを示す。驚くべきことに、不変量による形式は、オプティカル・フローへの驚異的な類似性を有しているが、この形式の場合、アパーチャ問題には苦しめられない利点が有る。この測光フローは、表面勾配の等高線と、深さに関する等高線で表面を決定するために示される。さらに、単一の点において表面法線を指定することで、これらの等高線から表面の深さが完全に決定することを証明する。加えて、追加情報として初期条件、あるいは境界条件を必要とするものの、低次微分から深さを復元する実用的なアルゴリズムを提案する。本研究の理論的な結果は、合成データおよび実データ上の幾つかの例を用いて説明する。

TS

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


陰影の検出と除去のための一対領域
Paired Regions for Shadow Detection and Removal

Ruiqi Guo , Dept. of Comput. Sci., Univ. of Illinois at Urbana Champaign, Urbana, IL, USA Qieyun Dai Hoiem, D.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 2956 - 2967 , December 2013

Keywords: graph theory, image classification, image enhancement, natural scenes, object detection, edge information, graph-cut, image matting, lighting model, natural scene, pairwise classification, pixel information, region-based approach, relative illumination, shadow detection, shadow removal, shadow-free ground truth image, shadow-free image, unary classification, Shadow detection, enhancement, region classification, shadow removal, Histograms, Image color analysis, Image edge detection, Lighting, Shadow detection

本稿では、自然の情景の単一画像から、陰影を検出し除去する問題を扱う。画素やエッジ情報を探索するこれまでの伝統的な手法と異なり、ここでは領域に基づくアプローチを採用する。この方法では、個々の領域を個別に考慮することに加えて、それらの外観から分割された領域間の相対的な照明条件を推定し、それらの情報に基づいて一対分類を実行する。分類の結果は、分割領域のグラフ構築に使用され、また、グラフカットは、影の領域と影でない領域のラベル付けの解決に使用される。さらに検出結果は、画像マッティングにより洗練される。そして、陰影が除かれた画像は、(推定された)照明モデルに基づいて、画素毎に再照明することにより復元される。本手法は、Zhu らによる陰影検出データセット上で評価を行なった。加えて、陰影除去のための定量的基準を与える、下地に陰影の無い正解画像による、新しいデータセットも構築した。また、単一および一対毎の分類、双方のための特徴の有効性も検討した。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所スパース外観モデルとK-選択を用いた頑健な視覚追跡
Robust Visual Tracking Using Local Sparse Appearance Model and K-Selection

Baiyang Liu , Dept. of Comput. Sci., Rutgers, State Univ. of New Jersey, Piscataway, NJ, USA Junzhou Huang Kulikowski, C. Lin Yang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 2968 - 2981 , December 2013

Keywords: image representation, learning (artificial intelligence), object tracking, SPT, drifting problems, dynamically updated online dictionary basis distribution, flexibility requirements, k-selection, local sparse appearance model, occluded scenarios, online learned tracking, robust tracking algorithm, robust visual tracking, selection-based dictionary learning algorithm, sparse constraint regularized mean shift, sparse representation-based voting map, stability requirements, static sparse dictionary, K-selection, Sparse representation, appearance model, dictionary learning, tracking, Adaptation models, Encoding, Heuristic algorithms, Histograms, Target tracking, Visualization

オンライン学習による追跡は、外観変化の扱いに対する適応能力の高さから、広く用いられている。しかしながら、それは自動更新の合間(特に隠蔽のあるような場合)に累積する誤差のために、ポテンシャルドリフト問題(potential drifting problem)を生じる。この問題に対し、最近の研究では、追跡子(tracker)の適切な組合せにより、安定性と柔軟性の要求のバランスを支援できることが示されている。本研究では、局所スパース外観モデル(local sparse apppearance model: SPT)とK-選択による、頑健な追跡アルゴリズムの開発を行なった。ここでは、静的なスパース辞書と動的に更新されたオンライン辞書の基底分布を、目標となる外観のモデル化に用いる。また、新規なスパース表現に基づく投票マップと、スパースな制約付き正規化平均シフト(regularized mean shift)を、対象を頑健に追跡するために提案する。さらに、これらに加えて、K-選択と呼ばれる局所制約付きスパース表現による、新しい選択に基づく辞書の学習アルゴリズムも導入する。広範な実験により、本アルゴリズムが近年の文献によるものに比して、より優れた性能を有することを示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


広角微小視野センサ(Wide-Angle Microvision Sensor)に向けて
Toward Wide-Angle Microvision Sensors

Koppal, S.J. , Harvard Univ., Cambridge, MA, USA Gkioulekas, I. Young, T. Hyunsung Park Crozier, K.B. Barrows, G.L. Zickler, T.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 2982 - 2996 , December 2013

Keywords: computer vision, image sensors, microsensors, computer vision, faces recognition, microscale devices, miniature vision sensors, refractive optical design, target tracking, template-based optical convolution, wide-angle microvision sensors, Computational sensors, micro/nano computer vision, micro/nano robotics, optical computing, optical templates, Optical attenuators, Optical imaging, Optical refraction, Optical sensors, Photodetectors

微小サイズのデバイス上にコンピュータ・ビジョンを実現することは、難しい課題である。これらのプラットホームでは、消費電力と質量の制約が非常に厳しく、ほとんどの一般的な計算(行列の扱いや、畳み込みなど)でさえも困難になる。本稿では、これらの制約解決の一助となる微小視覚センサクラスを提案し分析する。これらのセンサは、テンプレートに基づく光学的畳み込みにより要求電力を低減し、屈折光学設計を通じて広視野を小さな形態に納めることを可能としている。ここでは、これらのセンサについての、視野・体積・質量の間のトレードオフについて述べ、設計を支援する解析ツールを提供する。また、エッジ検出、目標追跡、顔検出といったコンピュータ・ビジョン機能の、ミリスケールの試作を行った。最終的には、光学設計をさらに小型化するために、フォトファブリケーション・ツールを活用し、小型自立飛体に搭載した基準検出を実演した。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


楕円体集合による最小体積被覆アプローチ
A Minimum Volume Covering Approach with a Set of Ellipsoids

Martinez-Rego, D. , Dept. of Comput. Sci., Univ. of A Coruna, A Coru?a, Spain Castillo, E. Fontenla-Romero, O. Alonso-Betanzos, A.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 2997 - 3009 , December 2013

Keywords: combinatorial mathematics, computational geometry, data handling, determinants, matrix algebra, pattern classification, pattern clustering, Karush-Kuhn-Tucker conditions, assignment problem, bilevel algorithm, binary variables, clustering problem, combinatorial character, continuous variables, covering ellipsoids technique, data point reassignment, determinant evaluation, diagonalization properties, estimation process, matrices, minimum volume covering approach, one-class classification problem, outlier identification, outlier removal, One class classification, bilevel algorithm, data clustering, minimum volume covering ellipsoids, Classification, Cluster approximation, Data models, Ellipsoids, Volume measurements

被覆楕円体を体積最小の組み合わせとして適合させる手法について詳述する。この問題の解は、1クラス分類とクラスタリングの問題に応用できる可能性を秘めている。その主な独自の特徴は以下である。1)関連する行列(involved matrices)の対角化特性(diagonalization properties)を用いることにより、行列式を直接計算することが回避される。2)推定の過程から、はずれ値が識別され除去される。3)割当問題の複合特性を、[0,1]レンジの連続変数に置き換えることにより、そこから得られる結果が2値変数となることが回避される。4)この問題は、2段階のアルゴリズムにより解かれる。最初の段階で楕円体(被覆)を決定し、次の段階でデータ点を楕円体に再割付し、はずれ値をKKT(Karush-Kuhn-Tucker)条件を満たすよう強制するアルゴリズムに基づいて識別する。本提案方法に対して、厳密な基礎を与える二つの理論を示す。最後に、本手法の威力と、その実用上の性能を示す為に異なる領域での一連の応用例を与える。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


辞書上のスパース表現追跡のための順方向基底選択
Forward Basis Selection for Pursuing Sparse Representations over a Dictionary

Xiao-Tong Yuan , Sch. of Inf. & Control, Nanjing Univ. of Inf. Sci. & Technol., Nanjing, China Shuicheng Yan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 3025 - 3036 , December 2013

Keywords: convex programming, data analysis, greedy algorithms, image representation, image segmentation, iterative methods, learning (artificial intelligence), matrix algebra, convex sparse representation setup, coordinate-wise sparse learning problems, forward basis selection, forward greedy selection algorithm, high-dimensional data analysis, learning nonnegative setup, low-rank subspace segmentation, objective function minimization, prefixed dictionary, pursuing sparse representations, sparse precision matrix estimation, subspace segmentation, Gaussian graphical models, Greedy selection, optimization, sparse representation, subspace segmentation, Dictionaries, Gaussian processes, Greedy algorithms, Sparse matrices

Frank と Wolfe による順方向貪欲選択アルゴリズムは、近年、スパース性と精度の間のトレードオフにより特徴付けられる座標毎のスパース学習問題に適用され、成功を収めている。本稿では、この手法を、事前に定義された辞書(prefixed dictionary)上のスパース表現を追跡する仕組みとして一般化する。ここで提案するアルゴリズムでは、辞書から繰り返しアトムを選択し、選択された全てのアトムの線形結合上の目的関数を最小化する。また、この貪欲選択手続きの収束率の分析を行った。さらに、辞書上の非負で凸のスパース表現を学習する仕組みへと、このアルゴリズムを拡張する。本提案のアルゴリズムの応用として、スパースな精度行列の推定と、低次元の部分空間分割を、ベンチマーク・データセット上で効率良く調査し、効果的であることを立証した。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


低解像度画像における姿勢に頑健な顔認識
Pose-Robust Recognition of Low-Resolution Face Images

Biswas, S. , Dept. of Comput. Sci. & Eng., Univ. of Notre Dame, Notre Dame, IN, USA Aggarwal, G. Flynn, P.J. Bowyer, K.W.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 3037 - 3049 , December 2013

Keywords: image classification, image matching, image recognition, object tracking, pose estimation, tensors, video surveillance, MultiPIE dataset, classifier-based approaches, face matching algorithms, facial landmark localization, frontal pose images, high-quality gallery images, high-resolution images, low-resolution face images, low-resolution uncontrolled probe images, multidimensional scaling, poor quality probe images, pose-robust recognition, super-resolution, surveillance cameras, surveillance imagery, surveillance quality facial image matching, surveillance video recognition, surveillance video tracking, tensor analysis, Face recognition, iterative majorization, low-resolution matching, multidimensional scaling, Cameras, Facial recognition, Iterative methods, Resolution, Surveillance

監視カメラに捕らえられた顔画像は、通常解像度が低く、加えて姿勢も照明条件も管理されていない。これらのことは全て、顔を照合するアルゴリズムの性能に意図しない影響を及ぼす。本稿では、監視画像品質の顔画像を、正面からの高解像度画像に照合するための、完全に自動化された新しいアプローチについて述べる。それは、しばしば記録中に実行可能である。本提案のアプローチでは、低品質の検出画像からの特徴量と、高品質の参照画像(gallery images)からの特徴量を、それらの間の距離が、参照画像と同じ条件で取得された検出画像の距離を近似するように、同時に変換する多次元尺度を用いる。また、テンソル解析を用いて、無制御で検出された低解像度画像における顔の特徴点の対応づけを行い、特徴量を算出する。提案アプローチの有用性は、データベースセット'Multi-PIE'上の評価を通じて、最新の超解像および分類器に基づくアプローチとの比較を行うことで立証した。さらに、監視画像上の実験により、本フレームワークの適用性を示す。また、監視映像における追跡と認識の応用への本提案アプローチの有用性も示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スパースな正準相関分析: 新たな定式化とアルゴリズム
Sparse Canonical Correlation Analysis: New Formulation and Algorithm

Delin Chu , Dept. of Math., Nat. Univ. of Singapore, Singapore, Singapore Li-Zhi Liao Ng, M.K. Xiaowei Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 3050 - 3065 , December 2013

Keywords: covariance matrices, data analysis, covariance matrices, cross-language document retrieval, gene classification, multidimensional variables, multiple CCA problem, multivariate data analysis, recursive formula, sparse canonical correlation analysis, trace formula, uncorrelated linear discriminant analysis, Sparsity, canonical correlation analysis, linear discriminant analysis, multivariate data, orthogonality, Canonical correlation analysis, Data models, Orthogonality, Sparse matrices

本稿では、正準相関分析(canonical correlation analysis: CCA)について述べる。これは、2つの多次元変数の集合間の相関を見つける為の、強力な多変量解析の道具である。本稿では主に以下を扱う。1)複合的なCCA問題のための再帰式とトレース式の間の同値関係の明確化。2)関連する共分散行列が特異な場合も許容する、複合的CCA問題の全ての解の明示的な特徴付けの取得。3)新規なスパースCCAアルゴリズムの開発。4)無相関線形弁別分析とCCAの問題の間の同値関係の構築。本提案アルゴリズムの有効性を示すために、遺伝子分類と言語間文書修復での幾つかのシミューレーョンおよび実世界データセットで評価を行なった。提案手法の性能は、最新のCCAアルゴリズムに対しても優位である。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


映像監視におけるデータセキュリティのための互いに素なぼかし暗号化手法(Coprime Blur Scheme)
A Coprime Blur Scheme for Data Security in Video Surveillance

Thorpe, C. , Dept. of Comput. & Inf. Sci., Univ. of Delaware, Newark, DE, USA Feng Li Zijia Li Zhan Yu Saunders, D. Jingyi Yu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 12, pp. 3066 - 3072 , December 2013

Keywords: cryptography, graphics processing units, image restoration, matrix algebra, polynomials, video cameras, video signal processing, video streaming, video surveillance, Bezout matrix, CBP model, CBP sequences, CBP theory, GPU, bivariate polynomials, blurred stream, camera surveillance, coprime blurred pair model, data security, decryption scheme, graphics processing unit, image content blurring, private stream, public stream, real-time performance, sampled polynomials, sensitive identity information, spatial encryption scheme, unblurred video stream reconstruction, video content blurring, video data blurring, video surveillance, z domain, CUDA, Video surveillance, greatest common divisor, image deblurring, visual cryptography, Cameras, Discrete Fourier transforms, Graphics processing units, Streaming media, Surveillance, Visualization

本稿は、カメラ監視におけるデータセキュリティを改善するための、新しい互いに素なぼかし対(coprime blurred pair : CBP)モデルを提示する。最新のアプローチでは、映像ストリームを完全に暗号化することに重点が置かれるが、本研究では、画像/映像コンテンツを戦略的にぼかすことによる空間的な暗号化手法を導入する。特に、原映像データを2つの異なるカーネルを用いてぼかすことにより、公開ストリームと非公開ストリームを形成する。各ぼかしストリームは、認可レベルの低いユーザに対して、被監視者個人を同定するような詳細情報へのアクセスを制限しながらも、被監視者の行動をモニタすることができるようになっている。仮に行為に疑わしさが認められた場合には、管理者はコンテンツのぼかしを除去するために、双方のストリームを使用することができる。本アプローチは、新しいCBP理論に基づいている。この理論では、それら2つのカーネルは、z領域の2変数多項式に写像された際に互いに素となる。(カーネルのz領域における像が)互いに素であることは、抽出された多項式で形成されるBézout行列(※)の階数により導出される。また、潜在する画像を修復するために、Bézout行列を効率良く因子分解するアルゴリズムも提供する。また、これらの解を、より実践的なものとするために、GPU上に復号処理系を実装することで実時間性能を達成した。広範な実験により、この新しい手法を用いて映像監視における繊細な識別情報が効果的に保護できることを示す。また、2つのCBPシーケンスがどちらも可能である場合、ぼかしを除去した映像ストリームを忠実に再現することができることを示す。

Jam

Copyright (c) 2013 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


[インデックス] [前の年] [次の年]