AbstractClub - 英文技術専門誌の論文・記事の和文要約


[インデックス] [前の年] [次の年]


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.31, No.1


ターンテーブル状に回転するオブジェクトのシルエット画像系列の自己校正
Self-Calibration of Turntable Sequences from Silhouettes

Hui Zhang, United International College, P.R. China Kwan-Yee K. Wong, The University of Hong Kong, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 1, pp. 5-14 , January 2009

Keywords: Motion, 3D/stereo scene analysis, Shape, Camera calibration, Motion, Shape, Stereo

本稿では、ターンテーブル状に回転するオブジェクトのシルエット画像系列から、カメラの内的パラメタと外的パラメタの両方を復元する問題を取り扱う。これまでのシルエットに基づいたアプローチでは、エピポーラタンジェントにより導出された対応を利用して、ターンテーブル的に動くオブジェクトの画像の不変量を推定していた。これにより弱度のカメラ校正は可能であった。ターンテーブル的回転条件の下で得られた任意の2つのビューを関連付ける基本行列が、これらの画像不変量、回転角、及び固定スカラー量1つにより明示的に表現可能であることが知られている。ターンテーブル平面の画像円点(circular point)が、上記と同一の画像不変量とスカラー量により定式化できることが示される。これは即ち、推定された画像不変量から直接この円点を復元することが可能であることを意味する。またこれにより絶対円錐曲線(absolute conic)の推定に対する拘束条件を得る。これらの処理によりカメラ校正行列を復元することができる。上記固定のスカラー量を画像トリプレットから推定するための頑健な方法を紹介し、推定された円点とエピ極を用いて回転角を復元する方法を示す。本稿で提案した方法により高い精度が達成できることを例証する。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


モメントによる曲線のパラメタ化
Curve Parametrization by Moments

Irina Popovici, United States Naval Academy, Annapolis William Douglas Withers, United States Naval Academy, Annapolis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 1, pp. 15-26 , January 2009

Keywords: Edge and feature detection, Moments

画像中の円錐曲線(二次曲線)のパラメトリック記述を、その画像のモメントから導出する方法を示す。このモメントは、いつくかの、特別に構成されたカーネル関数に対するものである。ハフ変換による方法と異なり、モメントを用いたアプローチでは、大規模なアキュムレータアレイを必要としない。実装上の工夫により、各画素に対するこれらのパラメタは、5回の乗算と6回の加算演算のみで決定することができる。モメントを用いることで、高周波ノイズやテクスチャなどがある場合でも計算法が頑健になり、エッジ上の小規模の擾乱に対しても高い抵抗力を持たせることができる。我々の方法は、より多くのパラメタを持つより複雑なクラスの曲線に対して一般化可能であり、またより高次の表面にも拡張可能である。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチレベル構造モデルを用いた単眼画像系列中の人間の姿勢トラッキング
Human Pose Tracking in Monocular Sequence Using Multilevel Structured Models

Mun Wai Lee, ObjectVideo Inc., Reston Ramakant Nevatia, University of Southern California, Los Angeles

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 1, pp. 27-38 , January 2009

Keywords: Computer vision, Image Processing and Computer Vision

単眼撮影されたビデオ中の人間の姿勢トラッキング技術は多くの重要なアプリケーションで利用されている。背景の散乱や、被写体の人間のバリエーション、そして自己隠蔽があるため、実際のシーンでこのトラッキングを行うことは困難な課題である。体が相互に隠蔽する形で複数の人間がいる場合には、この問題はさらに複雑になる。3次元の人間の姿勢の階層的推測を可能にする、マルチレベルの状態表現を持った3つの処理段からなるアプローチを提案した。我々の方法では、自動初期化、データ結合、自己隠蔽及び相互隠蔽などの様々な問題を取り扱う。最初の処理段では、ビデオ中の人間を前景ブロブとしてトラックし、その位置とサイズを大まかに推測する。第二処理段では様々な特徴を用いて顔、肩、四肢などの部分を検出し、その結果を統合し、グリッドに基づいた確信度伝搬アルゴリズムを用いて2次元平面において関節の位置を推測する。導出された確信度マップは、データ駆動型のマルコフ連鎖モンテカルロ法を用いて三次元姿勢を推測するための提案関数として第三処理段で用いられる。いくつかの実際的な室内ビデオ系列を用いた実験により、本手法により自己隠蔽及び相互隠蔽を含む、座ったり回転したりという動作などの、複数の人間の複雑な動きを追跡できることが示される。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


感情認識法のサーベイ:音声、映像、及び内的表現
A Survey of Affect Recognition Methods: Audio, Visual, and Spontaneous Expressions

Zhihong Zeng, University of Illinois at Urbana-Champaign, Urbana Maja Pantic, Imperial College London, London and the University of Twente, Netherlands Glenn I. Roisman, University of Illinois at Urbana-Champaign, Urbana Thomas S. Huang, University of Illinois at Urbana-Champaign, Urbana

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 1, pp. 39-58 , January 2009

Keywords: Introductory and Survey, Human-centered computing, Evaluation/methodology

心理学、計算機科学、言語学、神経科学、その他関連する学術分野の研究者が人間の感情的な挙動の自動解析に興味を持っている。しかし既存の方法は、多くの場合、心中の感情が何らかの形で外的に示される感情表現、および感情の誇張された表出のみを扱う。しかし実際には、左記の感情表現のもとになる感情は、その行動としての外見、音声、口調とは異なるし、ある感情が心の中で起きてから実際の挙動が起きるまでの時間差もある。この問題を扱うために、自然におこった人間の感情的挙動を扱うためのアルゴリズムの開発研究が始まっている。更に人間の感情解析のためのマルチモーダル情報の統合に向けた研究も数を増しつつある。このマルチモーダル情報には、視聴覚情報統合、言語的情報、パラ言語学的統合、そして顔の表情、頭の動き、体のジェスチャーに基づいた複数の手掛かり(マルチキュー)による視覚情報統合を含む。本稿ではこれらの最近の研究についてのサーベイを行う。まず心理学的側面から、人間の感情の知覚について議論し、次に人間の感情挙動の機械による理解問題を解くための既存のアプローチを検証する。そして訓練及びテストデータの生成や可用性などの重要な項目について議論する。最後に人間の感情センシング技術の科学的及び工学的な課題についての概要を与える。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


属性文法を用いたボトムアップ/トップダウンの画像構文解析
Bottom-Up/Top-Down Image Parsing with Attribute Grammar

Feng Han, University of California, Los Angeles, Los Angeles Song-Chun Zhu, University of California, Los Angeles University of California, Los Angeles, Los Angeles Los Angeles

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 1, pp. 59-73 , January 2009

Keywords: Pattern analysis, Algorithms, Statistical

本稿では、ビル、玄関、キッチン、そしてリビングルームなどの人工シーンのための、一般的表現としての単純な属性グラフ文法を紹介する。またベイズ事後確率最大化処理、もしくはこれと等価な記述長最小化(Minimizing a description length: MDL)処理にける画像構文解析のための効果的なトップダウン/ボトムアップ推測アルゴリズムについて検討する。与えられた入力画像に基づき、この推測アルゴリズムは構文解析グラフを計算(構築)する。このグラフは階層的分解のための解析木(parse tree)と多数の特殊拘束条件を含む。この推測アルゴリズムではボトムアップ処理段により、超過矩形の数を重み付けされた候補として検出する。次にこの候補をある特定の順にソートし、上記文法ルールを用いたトップダウン処理による、被隠蔽コンポーネント及び欠落コンポーネントの推測処理を開始する。我々の実験では、この文法とトップダウン推測により、ボトムアップ検出処理を顕著に改善することができることが示される。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


疑似尤度アプローチを用いたファジー特徴ベクトルのベイズクラスタリング
Bayesian Clustering of Fuzzy Feature Vectors Using a Quasi-Likelihood Approach

Pekka Marttinen, University of Helsinki, Helsinki Jing Tang, University of Helsinki, Helsinki Bernard De Baets, Ghent University, Ghent Peter Dawyndt, Ghent University, Ghent Jukka Corander, Abo Akademi University, Fanriksgatan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 1, pp. 74-85 , January 2009

Keywords: Bayesian clustering, quasi-likelihood, fuzzy modeling, continuous data

教師付き、及び教師なしのベイズモデルに基づいた識別器は、これまで徹底的に研究されてきた。科学および工学分野の様々な種類のアプリケーションにおけるこれらの識別器の持つ技術的な価値や汎用性が既に示されている。多くの識別器は、対象となるデータが本質的に離散化可能であることを前提として構築されているか、もしくは対象データをモデリング以前に離散化している。これと対照的に、ベイズフレームワークにおける連続特徴の大半に対しては、ガウス混合識別器も用いられてきた。識別コンテキストの離散化の主な理由は、モデルの解析的及び数値解析的特徴を単純化するためである。しかしこの処理がアドホックな特性を持つゆえに、また、識別処理において正しいクラスを検出する統計的能力が低下しているために、識別コンテキストの離散化は問題となることがある。ファジー特徴ベクトルのための教師なし識別アプローチを導入する。このアプローチでは、データの連続性という特性を保持しつつ離散モデル構造を利用する。これは通常の尤度を二項からなる疑似尤度で置き換えることで得られる。これにより与えられたクラスタリング解の事後確率のための解析的表現を生成する。結果として得られるモデルは情報理論的側面から正当化される。我々の方法は、困難な合成及び実データセットに対しても高精度なクラスタリング結果を与えることが示される。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


結合近傍グラフを用いた高次元データの増分等量埋め込み
Incremental Isometric Embedding of High-Dimensional Data Using Connected Neighborhood Graphs

Dongfang Zhao, Information, Distribution&Marketing, Inc., Atlanta Li Yang, Western Michigan University, Kalamazoo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 1, pp. 86-98 , January 2009

Keywords: Pattern Recognition, Models, Geometric, Statistical, Design Methodology, Feature evaluation and selection, Discrete Mathematics, Graph Theory, Graph algorithms, Database Management, Database Applications, Data mining

殆どの非線形データ埋め込み法では、ボトムアップアプローチを用いて、高次元空間における多様体上のデータ分布の潜在的な構造を表現している。これらの方法は類似した第一処理を持つことが多い。この処理では結合近傍グラフを構築することで各データ点の近傍点を定義し、これにより全てのデータ点を単一の座標系に埋め込むことが可能となる。多くのアプリケーションにおける次元性削減のために、これらの方法は漸増的に処理を行うことが求められている。入力データストリームが過小サンプリングされているかもしれないし、データにスキュー(偏り)があるかもしれないため、これらの方法を用いて漸増データを埋め込むためには結合近傍グラフが必要不可欠である。本稿では、新たなデータ点がデータセットに追加された場合、及び既存のデータ点が削除された場合に、kエッジ結合及びk結合近傍グラフを更新するためのアルゴリズムを紹介する。提案手法では、この近傍グラフにおける全対最短距離の更新のための簡単なアルゴリズムを用いる。過小サンプリングされたデータもしくは不均一に分布したデータなどを扱うために、反復的部分空間近似を用いた古典的な漸増的多次元スケーリングと共に、Isomapの漸増バージョンを考案する。合成及び実世界データセットを用いた実験により、様々なデータ分布に対してこのアルゴリズムが効率的であること、及び高次元データの低次元構成を保持することができることが示される。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


不確実性を考慮した登録及び、計量可変カーネル(Variable Metric Kernels)を用いた形状の統計的モデリング
Registration with Uncertainties and Statistical Modeling of Shapes with Variable Metric Kernels

Maxime Taron, Eole Centrale de Paris and CERTIS, France Nikos Paragios, Eole Centrale de Paris and INRIA, France Marie-Pierre Jolly, Siemens Corporate Research, Princeton

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 1, pp. 99-113 , January 2009

Keywords: Surface fitting, Shape, Registration, Segmentation, Pattern matching, Nonparametric statistics, Vision and Scene Understanding, Artificial Intelligence, Computing Methodologies

形状の登録とモデリングはコンピュータビジョン及びパターン認識における重要な問題である。過去十年にわたる大きな技術的進歩にもかかわらず、これらの問題はいまだ未解決のままである。本稿ではこれらの問題の最新手法をさらに改良する。まず形状間の1対1対応を復元するための効率的な登録方法を検討する。次に、復元された変換の局所的な影響範囲を説明するデータから導出された不確実性の尺度を導入する。この目的のために自由形状変形を用いて変形モデルを記述する。形状表現に用いられる陰関数によって張られる空間において定義された目的関数と、上記変換を組み合わせる。登録パラメタを復元したのち、モデル構築及び、可変帯域幅カーネルアプローチに基づいた訓練データを統計的に解釈するための新しい手法を導入する。前述したカーネル上の局所影響範囲は空間可変であり、且つ上記の登録プロセスの不確実性に基づいて決定される。このような手法により、モデルにおける潜在的な登録誤りを説明することができる。手書き文字認識及び、医療画像中の知識に基づいたオブジェクト抽出をアプリケーション例とし、提案フレームワークの潜在的能力を例証する。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率論的文法の教師なし学習:オブジェクトカテゴリのためのマルコフモデル
Unsupervised Learning of Probabilistic Grammar-Markov Models for Object Categories

Long Zhu, UCLA, Los Angeles Yuanhao Chen, USTC, Hefei Alan Yuille, UCLA, Los Angeles

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 1, pp. 114-128 , January 2009

Keywords: Structural, Computer vision, Machine learning

確率論的文法マルコフモデル(Probabilistic Grammar-Markov Model: PGMM)を紹介する。これは確率論的なコンテキスト非依存文法とマルコフ確率場を組み合わせるものである。PGMMは生成的モデルであり、利用する複数の特徴にわたり定義され、自然画像中のオブジェクトを識別するために用いられる。PGMMは高速推測、パラメタ学習、そして更に難しい構造的帰納法を行えるように設計されている。PGMMは、ターゲットとなるモデルの様々な外観もしくはアスペクトの推測と学習において、未知の二次元姿勢(位置、方位、及びスケール)を扱うことができる。教師なし学習でPGMMを構成することが可能である。この学習では、様々なカテゴリに属する、未知数のオブジェクトの内の一つを含む画像、もしくは純粋に背景のみを含む画像を入力とすることもできる。まず各画像が(単一の)ターゲットオブジェクトの例を含む弱度教師付きの場合を検討し、次に学習過程における教師情報の量を順次減らしたケースを検討する。本稿の目的は理論的なコンセプトの証明を与えることであり、そのためにこのアプローチをCaltechデータセット(訓練データセットにおける学習及び、テストセットにおける評価)の一部に適用した結果をもとに例証する。我々の結果は、提案手法が現在の最新の手法と伍する性能を持つことを示しており、また、提案手法による推測は5秒以下で実行可能である。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


漸増的な非類似性近似による全検索と等価なパターンマッチング
Full-Search-Equivalent Pattern Matching with Incremental Dissimilarity Approximations

Federico Tombari, University of Bologna, Bologna Stefano Mattoccia, University of Bologna, Bologna Luigi Di Stefano, University of Bologna, Bologna

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 1, pp. 129-141 , January 2009

Keywords: Computer vision, Pattern matching, Pattern analysis

本稿では、Lpノームから導出された非類似性関数に基づいた新しい高速パターンマッチング法を提案する。Lpノームの例としては、二乗誤差の和(Sum of Squared Difference: SSD)、絶対誤差の和(Sum of Absolute Difference: SAD)がある。提案手法は全検索と等価である。これは即ち、提案手法が全検索(Full Search: FS)と同一の結果を与えることを意味する。本手法は、利用するLpノームに基づいた非類似性関数の下界を順次引き上げていくことにより、計算量を減らしている。マッチング基準を満たさないこれらの候補をなるべく早く切ることを目的とした、階層的枝刈り条件を構築するために、上記の限定関数(bounding function)を用いることができる。本稿では提案手法と、論文等で既知の他の全検索等価アプローチとの実験的比較を行う。この結果は提案手法の計算量が顕著に少ないことを示している。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変調特徴、生成的モデル、及び重み付き曲線発展を用いたテクスチャ解析及び分割
Texture Analysis and Segmentation Using Modulation Features, Generative Models, and Weighted Curve Evolution

Iasonas Kokkinos, Ecole Centrale Paris, France Georgios Evangelopoulos, National Technical University of Athens, Athens Petros Maragos, National Technical University of Athens, Athens

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 1, pp. 142-157 , January 2009

Keywords: Image Processing and Computer Vision, Texture, Edge and feature detection, Segmentation, Image models, Statistical

本研究では、画像解析及び確率論的モデリングのアイディアを組み合わせることで、自然テクスチャ画像の解析と分割を検討する。これはAM-FMテクスチャモデル及び、特に、特徴抽出のための優勢成分分析(Dominant Component Analysis)パラダイムに基を置く。この方法により、テクスチャの本質的特徴である、スケール、方位、そしてコントラストを表す低次元の密度及び平滑性記述子が得られる。本研究は、テクスチャ解析及び分割問題の3つのレベルで成果がある。まず特徴抽出処理段では、より頑健なテクスチャ特徴を与える正規化復調アルゴリズムを提案し、DCAのチャネル選択基準を変更することのメリットを検討する。次に局所生成的モデル(Local Generative Model)に関してDCAとガボールフィルタの一般的な確率論的解釈を提案する。この考えをエッジ検出に拡張することで、エッジおよびテクスチャクラスに対する事後確率推定を容易にする。第三に、異種特徴の局所適応的融合を可能にすることで、領域競合/測地的活動領域法を改良するための重み付き曲線発展スキームを提案する。本手法による分割結果をBerkeley分割ベンチマークデータにおいて評価したところ、他の最新の方法に伍する結果が得られた。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


関節で接続された表面を、三次元上の点と法線に登録することによる人間の動きトラッキング
Human Motion Tracking by Registering an Articulated Surface to 3D Points and Normals

Radu Horaud, INRIA Grenoble-Rhone-Alpes, Montbonnot Saint-Martin Matti Niskanen, University of Oulu, Oulu Guillaume Dewaele, INRIA Grenoble-Rhone-Alpes, Montbonnot Saint-Martin Edmond Boyer, INRIA Grenoble-Rhone-Alpes, Montbonnot Saint-Martin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 1, pp. 158-163 , January 2009

Keywords: Computer vision, Face and gesture recognition

本稿では表面を三次元データに登録することによる人間の動きトラッキング問題を扱う。本稿で我々は、以下の2項を反復的に計算する方法を提案する。即ち、関節で接続されたオブジェクトの運動学的パラメタと自由運動パラメタの最大尤度推定、及び、部分オブジェクトもしくは外れ値クラスタにアサインされたデータの確率である。観測点と片方の法線との間の新しい計量(メトリクス)を導入し、他方の表面をパラメタ化する。後者は長円体(ellipsoid)を組み合わせることで定義される。visual hull (オブジェクトの外観)かvisual-shape(オブジェクトの視覚上の形状)の観測結果を扱うのに、このメトリックが適していることを主張する。不完全なシルエットから得られた疎なvisual-shapeデータ(三次元表面上の点と法線の組み)を用いて、人間の動きのトラッキング問題を例として本手法を説明する。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


色及び境界に関する手掛かりを用いたアフィンカーネル変換によるトラッキング
Tracking by Affine Kernel Transformations Using Color and Boundary Cues

Ido Leichter, Technion - Israel Institute of Technology, Haifa Michael Lindenbaum, Technion - Israel Institute of Technology, Haifa Ehud Rivlin, Technion - Israel Institute of Technology, Haifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 1, pp. 164-171 , January 2009

Keywords: visual tracking, kernel-based tracking

カーネルに基づいた追跡器(tracker)は、カーネル(マスク)の及ぶ範囲の画像特徴を、その空間的構造にかかわらず収集するものである。これらの追跡器は空間的に(通常の場合位置とスケール両面で)カーネルに適応しており、これにより上記特徴収集のための関数が最適化される。本稿で我々は、色の恒常性とターゲットの境界に沿ったカラーエッジを利用した、カーネルに基づく視覚追跡器を提案する。この追跡器は、最も類似する空間整列されたカーネルの対を推測するものである。このカーネルの一つは色に、他方はオブジェクトの境界に関連したものである。この意味において本研究は、オブジェクト境界手掛かりを追跡プロセスに組み込むことにより、また、単なる変換と等方性のスケーリング処理ではなく、カーネルに対するアフィン変換を許すことにより、従来のカーネルに基づいた追跡器を拡張しているといえる。これらの2つの拡張により、より高精度のターゲットの位置同定が可能となる。ターゲットの位置同定がより高精度にできることで、リファレンスカラーモデルの更新もより正確なものになっている。また、これにより追跡器の頑健性も向上している。このように改良された追跡器の性能を、いくつかの困難な画像系列を用いて例証する。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


距離画像中の類似性の高い三次元オブジェクトの効率的な認識
Efficient Recognition of Highly Similar 3D Objects in Range Images

Hui Chen, University of California, Riverside Bir Bhanu, University of California, Riverside

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 1, pp. 172-179 , January 2009

Keywords: Object recognition, Range data, Applications, Pattern Recognition

コンピュータビジョン分野における殆どの既存の三次元オブジェクト認識法は、小規模のデータベースを用いて、相互の類似性が低いオブジェクトを認識するものであった。本稿では、類似性の高いオブジェクトの高速インデクス付けと認識のための新しい方法を提案する。この方法は、表面記述子の高速検索のための特徴埋め込みと、対応付けのための新しい類似性尺度、そして仮説をランク付けするためのサポートベクトルマシン(Support Vector Machine: SVM)に基づいた学習法を組み合わせたものである。局所表面パッチ(Local surface patch: LSP)表現を用いて、モデル‐テスト対の対応を探す。この特徴ベクトルは高次元空間において定義されるものであり、そのまま利用することが難しい。そのため、埋め込みアルゴリズムを用いて距離関係を保持したまま、この特徴ベクトルを低次元空間にマップする。低次元空間における最近傍を探索することにより、新しい特徴を用いてモデル‐テスト対の類似性を計算する。上記学習アルゴリズムを用いて全てのモデル‐テスト対に対するこの類似性をランク付けし、検証のための候補モデルの短いリストを生成する。この検証は、モデルとテストオブジェクトを整列することで行われる。UNDデータセット(604画像における302被験体)及びUCRデータセット(902画像における155被験体)中の、三次元表現された人間の耳の距離画像を用いた実験結果を示し、幾何学的ハッシュ法との比較を行い、提案アプローチの効率と効果を例証する。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


輪郭の柔軟性による二次元形状マッチング
2D Shape Matching by Contour Flexibility

Chunjing Xu, The Chinese University of Hong Kong, Hong Kong Jianzhuang Liu, The Chinese University of Hong Kong, Hong Kong Xiaoou Tang, The Chinese University of Hong Kong, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 1, pp. 180-186 , January 2009

Keywords: 2D shape, contour flexibility, matching

コンピュータビジョンにおいては、形状マッチングは困難な課題であり、特にターゲットが関節構造を持っていたり、変形した部分がある場合には困難である。これらの変動は、人間の知覚という意味ではそれほど悪影響がないかもしれないが、これらの影響で、マッチングアルゴリズムが我々の知覚と異なる結果を示すことも少なくない。本稿では平面上の輪郭のための新しい形状記述子を提案する。これは輪郭の柔軟性(contour flexibility)と呼ばれるものであり、輪郭に沿った各点における変形可能性を表現するものである。この記述子を用いることにより、輪郭情報から局所特徴と大域特徴を得ることができる。次に上記特徴に基づいた形状マッチングスキームを示す。最近のアルゴリズムとの比較実験により我々のアルゴリズムが最も高性能であることが示される。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.31, No.2


手書き文字解析におけるオフラインで書かれたループの吟味
Offline Loop Investigation for Handwriting Analysis

Tal Steinherz, David Doermann, Ehud Rivlin, Nathan Intrator

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 2, pp. 193-209 , 2 2009

Keywords: Handwriting analysis, shape, contours

手書き文章中のストロークに存在するループを分解し、解明することは困難な課題であり、多くの古典的単語認 識システム、筆者のモデル化、サイン照合などにおいて重要な一歩となる。手書き文章を処理する際にはストロ ークが重なったり、くっついたり、交差する場合に多くのあいまいな状況が出現する。本論文は、このようなと きに生じるループを調べるため、輪郭に基づく新規な改善モデルを提案する。本手法を、軸を回るループの識別 や、つぶれたループの復元を含む多様な場面でのループ解析に応用したすばらしい結果を示す。本ループ解析法 をいくつかの現実的な2値の手書き文書画像に応用した結果を示し、これと正解文書画像と比較する。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


疎表現によるロバストな顔認識
Robust Face Recognition via Sparse Representation

John Wright, Allen Y. Yang, Arvind Ganesh, S. Shankar Sastry, Yi Ma

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 2, pp. 210-227 , 2 2009

Keywords: Robust Face Recognition, Sparse Representation

正面を向き、照明条件や表情が多様で、かつ、隠蔽があり変装した顔画像を自動的に認識する課題について考察 する。この認識課題を多数の線形回帰モデル間の識別問題の1つとみなし、疎な信号表現による新理論によって 本課題の本質を述べよう。l1 最小基準(マンハッタン距離)によって計算された疎な解に基づいて 、画像に基づくオブジェクト認識の一般的識別アルゴリズムを提案する。この新たな枠組みによって顔認識にお ける2つの困難な課題である、特徴量の抽出と隠蔽に対するロバスト性に関する新たな洞察が可能となる。何が 困難かといえば、特徴量の数が十分多くて、表現が疎であっても正しく計算されるかどうか、ということである 。画素を間引いた画素数が少ない画像をランダムに投影することで、通常の特徴量である固有顔(Eigenface)や ラプラシアン顔と同様の性能を示すことができるが、それには特徴量空間の次元数が、疎表現の理論で予想され る閾値を越える必要がある。この枠組みによって、隠蔽や汚れによって劣化したエラーに対処することができる が、それはこれらのエラーは標準画素に関して疎(まばら)であるという前提によっている。疎表現の理論はこ のように、どの程度の隠蔽まで認識アルゴリズムが対処できるか、また、隠蔽に対するロバスト性を最大化する ためにどのような学習データを選ぶべきかを予測してくれる。我々は入手可能な公開データベースに対して十分 な実験を重ね、本提案アルゴリズムの有効性を確認し、上記主張を確信した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自然画像の統計と、低複雑度の特徴量の選択
Natural Image Statistics and Low-Complexity Feature Selection

Manuela Vasconcelos, Nuno Vasconcelos

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 2, pp. 228-244 , 2 2009

Keywords: Feature extraction and construction, low complexity, natural image statistics, information theory, feature discrimination versus dependence, image databases, object recognition, texture, perceptual reasoning.

 顔認識における、複雑度の低い特徴量の選択について解析した。バンドパス特徴量の高次の依存性は自然画像 の識別に関して、ほとんど情報量を保持してないという仮説がある。この仮説は形式的には特徴集合の共役干渉 と分解可能性の概念を導入することによって特徴付けられる。低複雑度選択を実現するための必要十分条件が、 これらの概念によって導かれる。特徴量本来の複雑度は、特徴集合の分解可能性次数で決定されるのであり、そ の次元とは関係ないことが示される。そして、すべての複雑度レベルにわたって特徴量選択アルゴリズムが導か れ、既存の情報理論手順によって近似されるが、これは常に高効率を示す。識別効率の比較を通じて、低分解可 能性次数の仮説を客観的に検証するために、新たなアルゴリズムが導入された。画像識別のために、特徴量依存 性をモデル化することの利得は極めて少ない;分解可能次数1と仮定したとき最良の結果が得られた。このこと から、自然画像から抽出されるバンドパス特徴量の一般的法則は;任意の2つの特徴量の依存関係に関しては、 その他どんな特徴量を観測するとしても画像の種類によらず一定である。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


順序付けした学習サンプル集合の塊からのアンサンブル刈取り法の解析
An Analysis of Ensemble Pruning Techniques Based on Ordered Aggregation

Gonzalo Martinez-Muroz, Daniel Hernandez-Lobato, Alberto Saurez

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 2, pp. 245-259 , 2 2009

Keywords: Ensembles of classifiers, bagging, decision trees, ensemble selection, ensemble pruning, ordered aggregation

識別のために学習するサンプルの大きさを減少させ、識別精度を高めるためのいくつかの枝刈り戦略について解 析した。識別器の選択には直感的に相補的なアルゴリズムが選ばれ、これらを組み合わせると、全部の集合より は良い性能を示すことができる。ここで調査された枝刈り法は、学習サンプルの塊りを作る順序を変えて、検討 した。元来のバギング(bagging=bootstrap aggregating)法は、塊りの作り方には触れられてない。この順序が ランダムである場合、試みる識別器の数が増加するにしたがって般化誤差は減少する。もし、サンプルの塊りを 作る適切な順序の手順が考案されれば識別器の数が中間的な数で般化誤差が最小となるだろう。この最小値はバ ギングの漸近誤差以下になる。枝刈りされた集合は、順序付けられた集合中の識別器の割合を保持することで得 られる。これらの枝刈りされた集合の性能は、異なる学習条件下でいくつかの評価基準となる識別課題によって 評価される。この実験的調査結果によれば、順序付けされたサンプルの塊りから、計算量が多く、直接的に最適 ・準最適部分集合を選択する方法より、効率的でロバストな識別結果を有する般化誤差結果が得られた。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部分空間選択のための幾何平均
Geometric Mean for Subspace Selection

Dacheng Tao, Xuelong Li, Xindong Wu, Stephen J. Maybank

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 2, pp. 260-274 , 2 2009

Keywords: Arithmetic mean, Fisher's linear discriminant analysis (FLDA), geometric mean, Kullback-Leibler (KL) divergence, machine learning, subspace selection (or dimensionality reduction), visualization.

パタ—ン識別やデータ可視化には、部分空間選択法は強力な手法である。その中で最も重要な手法はフィッシャ ーの線形判別解析法(FLDA)と呼ばれる線形縮減法であり、この手法は生物測定、生物情報、マルチメディアなど を含む用途に成功裏に利用されてきた。しかし、FLDAによる線形の次元縮減法には決定的な欠点がある:c個の クラスの識別課題において、投影された次元が厳密な意味でc-1次元より小さい場合には部分空間への投影結果 はこれらのクラスを併合しやすい。つまり、部分空間は元の特徴量空間内で狭い場所に分布し、互いに併合する 可能性がある。もし異なるクラスがガウス分布から抽出されるのであれば、共分散行列の等しい、FLDA内の線形 次元縮減法は異なるクラス間のKullback-Leibler (KL)情報量の平均値を最大にする。この観点から本論文では 部分空間の選択で幾何平均が検討された。そして、次の3つの基準について解析された; 1) KL情報量の幾何 平均の最大化、 2) 正規化KL情報量の最大化、 3) 1) と2) の組み合わせ。人工的データによる予備実験では UCI機械学習貯蔵庫および手書き数字の結果が第3の基準が部分空間分離可能法として有望であり、クラス分離 問題における線形次元縮減法や、いくつかの代表的拡張法に比べて明らかに問題点が少ない。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ホモトピー法による隠れマルコフの半教師付き学習法
Semisupervised Learning of Hidden Markov Models via a Homotopy Method

Shihao Ji, Layne T. Lawrence Carin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 2, pp. 275-287 , 2 2009

Keywords: Semisupervised learning, homotopy method, hidden Markov models (HMMs), supervised learning

隠れマルコフモデル(HMM)による識別器の設計は、逐次データ列の解析に考案され、学習用にラベル付きデータ とラベル無しデータの両方の学習に取り入れられた;ラベル付であるかラベル無しであるかのバランス配分パラ メータλで与えられ、λ=0は純粋に教師付き学習であり、λ=1は、教師無し(ラベル無しのデータによる)での HMMクラスタリングに対応する。これに伴う推定問題は、自然パラメータホモトピーの一群の固定点方程式を解 く問題に帰する。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カーネル化した空間深さ関数によるはずれ値の検出
Outlier Detection with the Kernelized Spatial Depth Function

Yixin Chen, Xin Dang, Hanxiang Peng, Henry L. Bart Jr.,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 2, pp. 288-305 , 2 2009

Keywords: Outlier detection, novelty detection, anomaly detection, statistical depth function, spatial depth, kernel method, unsupervised learning

最深部から統計的な深さ関数によって、多次元データ中の点を、中心から外に向かって整列させられる。この意 味で、深さ関数は与えられた情報集合中の極端なデータやはずれ値を持つデータを計測することができる。した がって、この関数は、他の計測データから相対的に極端なはずれ値を検出できる。多様な統計的深さが知られて いるがその中で、空間的な深さは計算量や数学的取り扱い易さの観点から特に魅力的である。本論文では、カー ネルを使った空間深さ法(KSD)と称する新規な統計的手法を提案する。これは空間的深さを正定値カーネルによ って一般化したものである。適当なカーネルを選択することで、空間的深さ法では測定できないデータ集合の局 所的構造を把握できる。これを実証するため、半月形状とリング形状のデータに適用してみる。このKSDに基づ いて、新規なはずれ値検出アルゴリズムを提案し、これによって閾値以下の深さの観測データは、はずれ値とみ なす。この提案アルゴリズムは構造が単純で、与えられたカーネルに対してたった1つの閾値パラメータを持つ に過ぎない。これを1つのクラスから成る学習集合に適用し、正常な観測値を学習データとして、同時にラベル の無いデータとともに与えられる。ここでは、学習データは正常な観測値とはずれ値の両方が混在し、そのラベ ル名は未知とする。深さに基づく誤り検出確率の上界は与えられる。この上界によって閾値が決定される。人工 的に合成されたデータと実データを利用して徹底的な実験がなされた。ここに提案するはずれ値検出法は既知の 手法と比較された。この「KSDはずれ値検出器」は優れた性能を示した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時系列信号のマッチングにおける柔軟性パラメータを有する時間ワープ編集距離
Time Warp Edit Distance with Stiffness Adjustment for Time Series Matching

Pierre-Francois Marteau

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 2, pp. 306-318 , 2 2009

Keywords: Pattern recognition, time series, algorithms, similarity measures

信号列同士の相関問題と同様に我々は時系列信号同士の離散的相関問題を取り上げ、この中で2つの時系列信号 の類似性は、1つの信号列から別の信号列に編集変換するに要する演算数の最小コストを基に定義する。編集演 算の定義はグラフ演算処理を利用し、最終的には動的プログラミング法となる方法を使うが、これを動的時間ワ ープ編集距離(Time Warp Edit Distance (TWED))と呼ぶことにする。TWED法は動的時間ワープ法(DTW)や最長共 通部分信号列(LCSS)、あるいは、直接ペナルティ編集距離法(ERP)と少しだけ異なる。特に、これは時間軸に沿 った柔軟な時間尺度の融通性を制御するパラメータを持っていることに特徴がある。TWEDによる類似性は時系列 信号の検索に有望な尺度であることを示す。その理由は、時間尺度の柔軟性パラメータを調整することによって 、三角不等式を制御して時系列信号の検索スピードを上げられるからである。この意味において、元の時系列信 号に対する低密度サンプリングの下限としての表現空間が導ける。単純な識別課題によって、TWED距離の実験的 品質が評価可能となる。編集距離、DTW, LCSS,ERPに比べ、TWED法は上記実験課題においてはきわめて有効であ ることが証明された。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔、テキスト、自動車の検出と追跡の性能評価のための枠組み
Framework for Performance Evaluation of Face, Text, and Vehicle Detection and Tracking in Video: Data, Metrics, and Protocol

Rangachar Kasturi, Dmitry Goldgof, Padmanabhan Soundararajan, Vasant Manohar, John Garofolo, Rachel Bowers, Matthew Boonstra, Valentina Korzhova, Jing Zhang,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 2, pp. 319-336 , 2 2009

Keywords: Performance evaluation, object detection and tracking, baseline algorithms, face, text, vehicle

ベンチマーク用の共通データ、標準化された性能測定尺度、および基本的アルゴリズムは、多様な応用領域にお ける研究開発に多大な効果を及ぼしてきた。これにおいて用意された資源は、利用者にも技術開発者にも共通の 枠組みを与えることで客観的にアルゴリズムやその改良アルゴリズムの性能比較を可能にした。本論文では、ビ デオ画像中のオブジェクトの検出と追跡、特に、顔、テキスト、自動車を対象にした評価用の枠組みを提案する 。この枠組みに含まれるものは、元のビデオデータ、正解を与える画像の記述(説明記述のためのガイドライン も含む)、性能尺度、評価用手順、基本アルゴリズムを採点するためのツールソフトウエア。オブジェクトの検 出・追跡課題、および、これを支援するドメインごとに、50個の抜き取られた学習集合と50個のテスト集合 を開発した。各抜き取りデータは約2.5分のビデオで、各フレーム単位で空間的にも時間的にも区切られて説 明が付けられている。したがって、各課題とドメインにおいて、約45万フレームの注釈文章が用意されている 。これだけの規模の注釈量は今までに無かったレベルであり、ロバストな機械学習の方法を支え始めるのに必要 な量を持つだけでなく、アルゴリズムを統計的に有意に比較できるように設計されている。本研究の最終目標は 、オブジェクトの検出と追跡手法に対する挑戦を体系的に表明し、共通の評価を可能にする枠組みを提供し、い ろいろな手法の客観的比較を可能とし、研究者たちが自動的なモデル化手法を利用して実験評価が可能となるよ うな十分なデータを供給し、各研究組織に対して開発過程での客観的評価を働きかけ、コンピュータビジョンの コミュニティに対して、今後何年間もきわめて有用であり続けるようなスケールと量の資源を提供することであ る。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ランドマーク形状解析のための情報幾何学:形状表現と変形を統一することで
Information Geometry for Landmark Shape Analysis: Unifying Shape Representation and Deformation

Adrian M. Peter, Anand Rangarajan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 2, pp. 337-350 , 2 2009

Keywords: Information geometry, Fisher information, Fisher-Rao metric, Gaussian mixture models, shape analysis, shape matching, landmark shapes.

形状マッチングは、類似構造の比較において極めて重要な役割を演ずる。我々は、形状表現と形状変形の両方を 併せ持った混合モデルを利用した、形状マッチングのための統一的枠組みを紹介する。この理論的基礎は情報幾 何学から導かれ、情報行列を利用して、パラメトリックな密度間に本質的な距離を確立した。ランドマークに基 づく形状を表現するのに、パラメータ化された確率密度関数を利用する場合、密度の情報行列によって変形モー ドが自動的に確立される。まず、与えられた2つの形状がガウス混合モデル(GMM)によってパラメータ化された とき、よく知られた混合モデルのフィッシャーの情報行列もまたリーマン計量となる(実際は、Fisher-Rao Riemannian計量)。Fisher-Rao計量は本質的な計量であり、再パラメータ化によっても不変である。この計量を 使って計算された測地線によって形状の間の本質的な変形量が確立され、したがって、形状表現と変形量が統一 される。Fisher-Rao計量の本質的な欠点は、GMMには閉じた形式が使えないことである。その結果、形状を比較 するための計算量が極めて大きい。この解決のためにφ-エントロピーに基づくリーマン計量を導入する。これ がFisher-Rao計量と大きく異なる点は、新規な計量は閉形式で使えると言うことにある。新形式の計量を使った 計算はずっと効率的である。これらの新しい計量による測地線計算ははるかに効率的である。この情報幾何に基 づく計量の性能と識別能力を判定するために脳梁形状の一対比較マッチングを行い、妥当性を確認した。また、 多様な位相形状を有する魚の形状についても、この形状の変形を調べた。総合的な比較解析が、他の特徴量に基 づく距離についても行われた。これには、Hausdorff距離、Procrustes尺度計量、特徴量に基づく微分同相写像 、および、薄板やWendlandスプラインの曲げエネルギーも含まれる。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2つのデータベース、YDB と CMU-PIE、における主成分角度による対象物照明部分空間の分離
Principal Angles Separate Subject Illumination Spaces in YDB and CMU-PIE

J. Ross Beveridge, Bruce A. Draper, Jen-Mei Chang, Michael Kirby, Holger Kley, Chris Peterson

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 2, pp. 351-363 , 2 2009

Keywords: Face recognition, illumination subspaces, principal angle, set-to-set classification

照明部分空間に関する理論は十分発展しており、Yale Face Database B(YDB)やCMU-PIE (PIE)のデータベースに よって十分テストされてきた。本論文は、照明条件が変化する条件下で顔認識を行う画像のマッチングの問題が 、画像のマッチング集合と画像集合の問題とみなされるなら、部分空間間の最小主成分角度によって十分完全に 、YDB と PIEデータベース中の非マッチング対の中からマッチング対を分離することが可能である。この原理は たった6つの画像から部分空間を推定した場合や、もっと少ない3つの画像から部分空間を推定した場合にも成 り立つ。ただし、後者の場合は第2の部分空間は、もっと大きな(例えば10以上の)集合から推定する必要があ るが。このことから、照明下における変動は不必要なノイズとはならず、有用な識別情報とみなせる。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


中間調を利用した高精度の境界長推定法
High-Precision Boundary Length Estimation by Utilizing Gray-Level Information

Nataia Sladoje, Joakim Lindblad

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 2, pp. 357-363 , 2 2009

Keywords: Size and shape, length estimate, perimeter, pixel coverage, gray level, quantization

デジタイズ化した対象物の境界線上の中間調レベルを利用した、高精度で緻密な周囲長を計測する新規な手法を 提案する。画素の強度がオブジェクトをカバーしている量と比例すると仮定すれば、非量子化画素値の境界線の 場合には、ここに提案する方法は誤差のない方法となることを示す。より現実的な画素値が量子化されている状 況においては、最大誤差値を最小化した値が得られることを示す。中間調レベルの数が無限大になるにつれて、 推定周囲長が正解値に収束することを示す。本方法は実装化が容易であり、完全な擬似コードを示す。本手法は 小近傍画素のみを利用するため、並列化もきわめて容易である。この推測法を、周囲長が未知ないくつかの凸の 形状と凹の形状に対して順次解像度を上げながら適用した。さらに、実画像への応用可能例を示し、適当な前処 理とその結果を他の局所的方法と比較した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


独立な識別器集合における統計的事例に基づく刈り込み
Statistical Instance-Based Pruning in Ensembles of Independent Classifiers

Daniel Hernandez-Lobato, Gonzalo Martinez-Munoz, Alberto Suarez,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 2, pp. 364-369 , 2 2009

Keywords: Ensemble learning, bagging, random forests, ensemble pruning, instance-based pruning, Polya urn

独立な用途向けに作られた多数の均質な識別器集合について、定まった学習データによるランダムな学習アルゴ リズムについて、ベイズ法に基づくグローバルな予測について解析した。多数決法を利用するとすれば、識別器 の部分集合に質問を発するだけで、ある与えられた確信レベル内で全識別器を予測することが可能である。識別 の必要がある特別な事例は、残りの投票結果が決められた確信レベル以上であり、予測されるクラスが変化しな い場合、識別器集合の投票を差し止める。バギングとかランダムフォレストとかの代表的な並列手法を利用して ベンチマークによる識別問題の実験によって、解析の妥当性が確認され、ここに提案する事例に基づく多数の識 別器の刈り込み法の有効性が実証された。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


制限付代数的誤差最小法によるカメラの位置誤差算出法
Camera Displacement via Constrained Minimization of the Algebraic Error

Graziano Chesi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 2, pp. 370-375 , 2 2009

Keywords: 3D-stereo scene analysis, Motion

本論文は2台のカメラによる立体視システムにおけるカメラの位置ずれ量を推定するための新規な方法を提案す るものであり、そのために利用する方法は基礎行列多様体の代数誤差最小化である。本提案手法は、同次形式と 線形行列不等式(LMI)最適化に基づいており,解が局所的な極小値にならず,非線形項の近似も導入しないと言 う利点がある。合成データと実データの両方による数値実験によって、本提案手法はSVD手法(特異値分解法)や 勾配下降法と単体探索アルゴリズムの両方を用いた、基礎行列多様体上での代数的誤差最小法に比べはるかに優 れた結果を示した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カメラの幾何的更正のための高精度でロバストな大きな制御用マークの位置検出
High-Accuracy and Robust Localization of Large Control Markers for Geometric Camera Calibration

Damien Douxchamps, Kunihiro Chihara

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 2, pp. 376-383 , 2 2009

Keywords: Camera calibration, imaging geometry, image measurement, high resolution, noise, ray tracing, subpixel.

画像中の特徴量の正確な位置決めには基本的な妥協が求められる;特徴量は画像の非線形歪みを抑えるためには 小さくなければならないし、ノイズと量子化の影響を抑えるためには大きくなければならない。これは、画像測 定における精度とロバスト性の両方を制約するが、測定値は幾何学的なカメラ更生と、それに引き続く更正を利 用したすべての測定にも重要な影響を及ぼす。本論文では、制御用マークを同定し、完全なカメラモデルを利用 した新規な幾何学的カメラ更生手法を提案し、これによって、マークのサイズに関する矛盾を除去する。大きな マークは単純な円板に比べて利用できるパターンが高密度であり、精度とロバスト性が大きく向上する。平面状 のマークが利用される場合、合成画像を使った幾何学的カメラ更生の誤差は、ノイズや照明による濃度勾配、圧 縮、ボケ、ダイナミックレンジ不足があっても0.002画素であった。カメラモデルが複雑であっても、カメラパ ラメータは正確に再現された。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.31, No.3


能動的な偏光抑制
Active Polarization Descattering

Tali Treibitz, Technion - Israel Institute of Technology , Haifa Yoav Y. Schechner, Technion - Israel Institute of Technology, Haifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 3, pp. 385-399 , March 2009

Keywords: Computer vision, Modeling and recovery of physical attributes, Color

散乱した媒体中で撮影された画像の処理は、重要だが困難な課題である。このような場合、背景散乱と光の減衰のため視界が悪くなる。殆どの従来のシーン復元法は能動的な照明スキャン法(構造的(structured)及び選択的(gated))を用いている。これらの処理は低速且つ面倒なものであるが、自然光による照明は暗い環境で用いるには不適切である。本稿では、スキャンではなく、能動的なシーン照明光を用いる復元法の必要性について述べ、広視野の人工照明条件下での画像構成について検討する。また、この構成モデルに基づいて対象物体の信号を復元し、三次元シーン構造の大まかな情報も与えるアプローチを示す。このアプローチは、コンパクト且つ単純なハードウェア上で動作し、能動的な広視野を持ち、多色の偏光照明下で実行可能である。使用するカメラは偏光解析機で調整される。各シーンに対して、この解析機もしくは偏光器の状態を変化させた二つのフレームを撮影し、復元アルゴリズムを適用する。背景散乱がある場合や、オブジェクトの表面反射光が部分的に偏光している場合でも本アルゴリズムは動作する。従来のアプローチは、背景散乱もしくはオブジェクトの表面反射光偏光の内の、どちらか片方のみを前提としていたが、上記性質を持つ本アプローチは、従来の偏光に基づいた方法を統合し、一般化するものと言える。本アプローチは、画像ノイズと照明の減少に依存した有限の有効範囲を持つ。本稿ではこの有効範囲の限界及びノイズ感度の解析を行う。このアプローチを水中実験により例証する。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像登録のための、適応性のあるマルチレイヤの非整数次フーリエ変換アプローチ
An Adaptable-Multilayer Fractional Fourier Transform Approach for Image Registration

Wei Pan, Tsinghua University, Beijing Kaihuai Qin, Tsinghua University, Beijing Yao Chen, Tsinghua University, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 3, pp. 400-414 , March 2009

Keywords: Image Processing and Computer Vision, Computation of transforms, Pattern matching

極座標高速フーリエ変換(Polar FFT)及び対数極座標高速フーリエ変換(Log-Polar FFT)の計算のための、新しい適応性のある高精度の方法を開発した。これをマルチレイヤ非整数次フーリエ変換(Multilayer Fractional Fourier Transform: MLFFT)と呼ぶ。以下に述べる理由により、MLFFTは、疑似極座標高速フーリエ変換に付与するべき必須の追加である。まずこれは、極座標フーリエ変換、対数極座標フーリエ変換両方において補間誤差が少ない。また、疑似極座標高速フーリエ変換とほぼ同じ計算複雑性で、より高い精度が得られる。更にユーザが定義した計算レベルを引き上げることにより、計算精度を向上させることが可能な仕組みを持つ。本稿では、MLFFTそのものとその利点を、理論的及び実証的に説明する。画像回転とスケーリング(拡大縮小)を伴う画像登録におけるMLFFTの応用例を説明する。我々の実験結果はMLFFTが以下の2つの主な利点を持つことを示している。1)5倍までのスケーリング及び任意の回転角、もしくは回転を伴わない10倍までのスケーリングの画像であればMLFFTで復元することができる。他の最新の方法では最大スケーリング倍率は4倍までである。2)MLFFTは、回転角やスケーリング倍率が大きい場合でも、反復計算を必要としない。それゆえ疑似極座標に基づいた高速フーリエ変換法よりも画像登録において効率的である。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効率的なシルエットからの多面体モデリング
Efficient Polyhedral Modeling from Silhouettes

Jean-Sebastien Franco, LaBRI CNRS-INRIA Sud-Ouest-Equipe IPARLA, France Edmond Boyer, INRIA Rhone-Alpes, France

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 3, pp. 414-427 , March 2009

Keywords: Computer vision, Vision and Scene Understanding, 3D/stereo scene analysis, Modeling from video

シルエットからのモデリングは、コンピュータビジョンにおいて一般的かつ有用なトピックである。シルエットからvisual hull(視体積交差領域:各カメラで得られる二次元シルエット像の交差領域)を計算するための多くの方法が存在するが、多様性などの表面の正常なトポロジ特性の保証を考慮した方法は稀である。本稿では、多面体メッシュとして表現された表面を計算するための効率的アルゴリズムを与える。このアルゴリズムは、反復計算を用いず、少数の幾何演算によってvisual hullを構成する多面体を計算できる。この単純さにより、高速かつ画素レベルで正確な表面の計算が可能となる。実データを用いた一般的な実験的条件下で、このアルゴリズムにより、多様体と隙間なく構成された多面体を反復的に生成することができる。これはテストした全てのデータベースで検証されている。本稿ではこのアルゴリズムを詳細に説明し、その複雑性を解析し、そしてモデリング結果を与える。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


期待値最大化を用いた混合的両眼マッチング(Fractional Stereo Matching)
Fractional Stereo Matching Using Expectation-Maximization

Wei Xiong, The Chinese University of Hong Kong, Hong Kong Hin Shun Chung, The Chinese University of Hong Kong, Hong Kong Jiaya Jia, The Chinese University of Hong Kong, Shatin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 3, pp. 428-443 , March 2009

Keywords: Stereo, Applications, Image matting

混合的両眼マッチング(fractional stereo matching)問題は、ぼやけた境界を持つ前景オブジェクトが未知の透過率で背景に溶け込んでいる問題である。異なる層における空間的に変化する視差のために、ステレオ画像において前景の単一画素が異なる複数の背景画素と混合されている場合があるし、従来の両眼マッチングで前提となっていた色の恒常性も成立しなくなるだろう。この問題に取り組むために本稿では、確率論的フレームワークを導入する。これは異なる層の画素の色、視差、及びα値のマッチングを拘束するものである。また、短いベースラインのステレオ入力画像対が与えられた場合に、期待値最大化法(Expectation-Maximization: EM)を用いて事後確率最大化(Maximizing a Posterior: MAP)問題を解くための自動最適化法を提案する。我々の方法では、特別な検出処理を必要としないレイヤ混合(layer blending)によって背景隠蔽の効果を表現する。この統合フレームワークにおける前記α値の計算処理は、自然画像マッチングによる新しいアプローチである。このアプローチにより、背景色が前景オブジェクトの色に近い場合でも適切な処理ができる。困難なステレオ画像を用いた実験により我々の方法の効率性を例証し、他の最新の方法との比較を行う。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


インド語(ヒンディー)手書き数字画像データベース及び、混合数字の複数段処理による認識
Handwritten Numeral Databases of Indian Scripts and Multistage Recognition of Mixed Numerals

Ujjwal Bhattacharya, Indian Statistical Institute, Kolkata B.B. Chaudhuri, Indian Statistical Institute, Kolkata

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 3, pp. 444-457 , March 2009

Keywords: Handwriting analysis, Optical character recognition

本稿ではまず、文字ごとに分割されたインド語(major Indian:ヒンディー)手書き数字の認識問題を扱う。本稿で示される主要な成果は(a)最もポピュラーな2つのインド語の手書き数字のための、2つのデータベースの開発の先駆けとなったこと。(b)ウェーブレットに基づいた多重解像度表現と多層パーセプトロン識別器を用いたカスケード型の複数段処理による認識スキーム。(c) 3種類のインド語、即ちデーヴァナーガリー(Devanagari:ヒンディーその他インド諸言語の記述に用いるアルファベット)、ベンガル語(Bangla)及び英語、による混合手書き数字認識に対する、前記(b)の応用。本稿で示すデータベースには、それぞれ22,556(デーヴァナーガリー)及び23,392(ベンガル語)の、文字ごとに分割された手書き数字サンプルが含まれる。これらは実際の文書からサンプリングされたものであり、他の研究機関の研究者が無償で利用することができる。提案スキームでは、各数字画像は三つの多層パーセプトロン識別器により処理される。これらの識別器は、疎から密(coarse-to-fine)の3つの解像度レベルに対応するものであり、カスケード状に配置される。最高解像度レベルにおいて棄却された場合、他の多層パーセプトロンを用い、前段の3つの識別器の出力を組み合わせることで、入力数字画像の最終的な認識を行う。この認識スキームを、文書の言語が未知である場合、もしくは単一文書に複数の(言語の)スクリプトがある場合に関して拡張した。インドの郵便や表形式の文書の多くに、混合スクリプト中の手書き数字が見られる。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


人間の知覚からヒントを得た色強調のための変分法フレームワーク
A Perceptually Inspired Variational Framework for Color Enhancement

Rodrigo Palma-Amestoy, Universidad de Chile , Santiago Edoardo Provenzi, Universita di Milano, Crema Marcelo Bertalmio, Universitat Pompeu Fabra, Barcelona Vincent Caselles, Universitat Pompeu Fabra, Barcelona

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 3, pp. 458-474 , March 2009

Keywords: Constrained optimization, Gradient methods, Partial Differential Equations, Iterative solution techniques, Enhancement, Filtering, Color

人間の色知覚の基本的な現象から、高性能な色補正アルゴリズムの元になるアイディアが数多く生まれてきた。これらのアルゴリズムにおける顕著な画像特徴(例えばコントラストや分散など)の振る舞いを特徴づけることは困難である。色コントラスト強調の変分法的定式化を用いこの問題を解決する方法を提案する。これは色知覚の基本現象にアイディアを得たものである。この方法では、この問題を解くために必要とされる基本要件を全て満たすエネルギー関数を利用する。これが“人間の知覚からアイディアを得た”部分である。これは同時に、前記要件の全てを満たす汎関数のクラスが厳に存在することを示している。最も興味深い3つの汎関数を選び出し、既存のモデルとの類似点と相違点を明らかにする。勾配降下法を用いて、これらの汎関数の最小値を計算する。このアルゴリズムの計算コストを減らすための一般的な方法論についても示す。入力画像の画素数をNとした場合、この方法の計算コストはO(N2)ないしO(N logN)の範囲になる。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


等高線(isocontour)と等位面(isosurface)を用いた確率密度推定:情報理論的画像登録における応用
Probability Density Estimation Using Isocontours and Isosurfaces: Applications to Information-Theoretic Image Registration

Ajit Rajwade, University of Florida, Gainesville Arunava Banerjee, Univeristy of Florida, Gainesville Anand Rangarajan, University of Florida, Gainesville

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 3, pp. 475-491 , March 2009

Keywords: computer vision, pattern recognition

画像中の明度の確率密度を決定するための新しい幾何的アプローチを示す。この研究では、画像が独立した画素の集合であるという考えを捨て、画素レベルで連続な表現法を採る。画像表面上で近接する2つの等高線(isocontour)間の領域のサイズに比例する確率密度を用いる。本稿ではこのアイディアを画像対の結合確率密度に拡張する。相互情報量などの情報理論的な尺度を用いて2つ以上の画像間のアフィン登録を行う問題にこの方法を応用する。我々の方法が、単純なヒストグラム、部分容積補間(partial volume interpolation)を伴うヒストグラム、Parzen窓などの既存の方法を上回る性能を示すケースを示す。これらのケースでは、顕著な画像ノイズがあるとき、アフィン画像登録における明度の量子化が良好に行われた場合を想定している。更に複数画像の同時登録と、大規模なデータセットを用いた画像対についても例証する。これにより我々の確率密度推定器の理論的特性を示す。我々のアプローチは、画像補間子(interpolant)の選択のみを必要とする。この方法は(Parzen窓関数で必要とされるような)画像そのものの構造に関係しないカーネル関数を必要とせず、また確率密度推定のためのいかなる標本化にも依存しない。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


色情報により重み付けされた補正、階層的確信度伝搬、及び隠蔽対応処理を伴う両眼マッチング
Stereo Matching with Color-Weighted Correlation, Hierarchical Belief Propagation, and Occlusion Handling

Qingxiong Yang, University of Illinois at Urbana Champaign, Urbana Liang Wang, University of Kentucky, Lexington Ruigang Yang, University of Kentucky, Lexington Henrik Stewenius, Google Switzerland, Zurich David Nister, Microsoft Corp., Redmond

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 3, pp. 492-504 , March 2009

Keywords: 3D/stereo scene analysis, Segmentation, Markov random fields

本稿では、視差、不連続、及び隠蔽を詳細に考慮した両眼マッチングアルゴリズムを説明する。このアルゴリズムはエネルギー最小化フレームワークに基づいた大域マッチングステレオモデルを用いている。この大域エネルギーは、データ項と平滑性項の二つの項からなる。このデータ項はまず色情報により重み付けされた相関により近似され、次に階層的且つループになる確信度伝搬アルゴリズムを反復的に適用することで隠蔽領域、テクスチャが少ない領域について詳細化する。Middleburyデータセットを用いた実験結果の評価は、我々のアルゴリズムが本稿で示す全ての既存アルゴリズムの中で最高の性能を持つことを示している。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数シーン面に対象を同定することによる、相互に隠蔽する複数の人のトラッキング
Tracking Multiple Occluding People by Localizing on Multiple Scene Planes

Saad M. Khan, University of Central Florida, Orlando Mubarak Shah, University of Central Florida, Orlando

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 3, pp. 505-519 , March 2009

Keywords: Tracking, Sensor fusion

混雑したシーンや散乱したシーンでは、オブジェクト間の隠蔽や視野に入らないことが、正確且つ整合的な人トラッキングを困難にする。これは特に単一ビューの場合顕著である。本稿で我々は、この問題を解くためのマルチビューアプローチを示す。我々のアプローチでは、単一カメラもしくはカメラ対からの画像のみに依存したオブジェクト検出やトラッキングは行わない。むしろ全てのカメラからの情報を単一の協働的なフレームワークに集め、検出とトラッキングの結果を各ビューにフィードバックする。完全に校正されたビューを必要とするような他のマルチビューアプローチと異なり、我々のアプローチは純粋に画像に基づくものであり、二次元構成要素のみを利用する。この目的のために平面ホモグラフィ占有拘束条件(homographic occupancy constraint)を開発する。これにより、複数のビューからの前景尤度情報を融合することで隠蔽を解消し、トラッキングの対象となる人を参照シーン面に同定する。より頑健性を高めるために、面から面へのホモロジーフレームワークにおける参照面に平行な複数の面に対して本処理を拡張する。我々の情報統合方法論はシーン散乱もモデル化する。これにはSchmiederとWeathersbyによる散乱尺度を用いる。この尺度は確信度事前情報として働き、より少ない散乱のビューに対してより高い融合ウェイトを与えるものである。時空間占有尤度データにおけるトラックのグラフカット法による分割により、検出及びトラッキングを同時に行う。困難なマルチビューの混雑したシーンを用いた、詳細な定性的及び定量的解析による実験結果を示す。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


階層的ベイズモデルを用いた、混雑した複雑なシーンの教師なし活動知覚
Unsupervised Activity Perception in Crowded and Complicated Scenes Using Hierarchical Bayesian Models

Xiaogang Wang, MIT, Cambridge Xiaoxu Ma, MIT, Cambridge W.E.L. Grimson, MIT, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 3, pp. 539-555 , March 2009

Keywords: Vision and Scene Understanding, Artificial Intelligence, Computing Methodologies, Video analysis, Machine learning, Motion, Applications, Statistical, Computer vision, Algorithms, Clustering, Pattern Recognition, Computing Methodologies

混雑した複雑なシーンにおける活動とインタラクションのモデル化のための、新しい教師なし学習フレームワークを提案する。階層的ベイズモデルを用いてビデオ監視における3つの要素を結合する。これは即ち、低次の画像特徴、単純な“要素”活動(atomic activities)、そしてインタラクションである。要素活動は低次視覚特徴の分布としてモデル化され、複数エージェントのインタラクションは、この要素活動の分布としてモデル化される。教師なし学習を用いてこれらのモデルを構成する。長時間のビデオシーケンスが与えられた時、各画素は、様々な要素活動にクラスタ化される。短時間ビデオクリップの場合は、様々なインタラクションにクラスタ化される。本稿では、3つの階層的ベイズモデル、潜在ディリクレ割り当て(Latent Dirichlet Allocation:LDA)混合モデル、階層的ディリクレ過程(Hierarchical Dirichlet Process:HDP)混合モデル、そして双対階層的ディリクレ過程(Dual Hierarchical Dirichlet Processes:Dual-HDP)モデルを提案する。これらは既存の言語モデル、例えばLDAやHDPを上回る性能を持つ。我々のデータセットは、混雑した往来のシーンの困難なビデオシーケンスと、様々な種類の活動が同時に起きている駅構内を撮影したビデオシーケンスからなる。我々のフレームワークは、トラッキング及び人手によるラベル付けを必要とせずに、多くの困難なビデオ監視を行うことができる。例えば(1)典型的な要素活動やインタラクションを見つける、(2)長大なビデオシーケンスを様々なインタラクションに分割する、(3)動きを様々な活動に分割する、(4)異常行動を検出し、(5)活動とインタラクションに対する高次のクエリをサポートする。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


サポート関数からの三次元再構成のための新しいアルゴリズム
A New Algorithm for 3D Reconstruction from Support Functions

Richard j. Gardner, Western Washington University, Bellingham Markus Kiderlen, University of Aarhus, Aarhus

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 3, pp. 556-562 , March 2009

Keywords: Least squares methods, Optimization, Numerical Analysis, Shape, Inverse problems, Partial Differential Equations, Mathematics of Computing

オブジェクト形状のサポート関数の有限数のノイズを含む計量を用いて、未知のオブジェクト形状を再構成するための新しいアルゴリズムを紹介する。このアルゴリズムは最小二乗過程に基づくものであり、Matlabなどの標準的なソフトでの実装が容易であり、且つ二次元及び三次元の再構成問題を扱うことができる(実際、原理的には、いかなる次元においても再構成可能である)。この再構成は、多くの場合、前処理、後処理を必要とせず、また基となる計量の方向についての制約もない。ただし計量の数に関しては制約があり、また計算時間による制約も受ける。従来のPrinceとWillskyによる二次元再構成アルゴリズムの性能を、我々のアルゴリズムと比較した。我々のアルゴリズムの方がより高速であり、三次元再構成にも利用でき、更に前記のとおりの高い自由度を誇る。適当な条件下では、計量の数を増やすことで、この新しいアルゴリズムの出力が入力形状に収束することが理論的に保証されている。このアルゴリズムの線形計画法バージョンもある。これは、ノイズレベルが低く計量の数が少ない場合には、通常バージョンより高速で、同等もしくはより良い性能を持つ。“注意のフォーカス”スキームで用いるのに適したバージョンのアルゴリズムについても説明を加える。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ハイパーグラフに基づいた、高次元共起の異常検出
Hypergraph-Based Anomaly Detection of High-Dimensional Co-Occurrences

Jorge Silva, Duke University, Durham Rebecca Willett, Duke University, Durham

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 3, pp. 563-569 , March 2009

Keywords: Anomaly detection, Co-occurrence data, Unsupervised learning, Variational methods, False Discovery Rate

本稿では、有限数のラベルなし訓練観察を用いた異常多変量共起(anomalous multivariate co-occurrence)の検出問題を取り扱う。この超高次元問題を取り扱うために、データのハイパーグラフ表現に基づいた新しい方法を提案する。ハイパーグラフは、グラフ理論の重要な拡張であり、エッジ(枝)に同時に2つ以上の頂点(ノード)と接続されることを許すものである。特徴選択や次元性削減を用いずに、直接ハイパーグラフ領域で異常を検出するための変分法的期待値最大化アルゴリズムを示す。結果として得られる推定は、誤り発見率(False Discovery Rate)に基づいて異常性測量の計算のために用いることができる。nを訓練観察数、pを各共起における潜在的な要素数とすると、このアルゴリズムの計算複雑性はO(np)である。この高い計算効率のおかげで、本アルゴリズムは超高次元での使用に理想的に適している。また本アルゴリズムは、チューニング、帯域幅パラメタ、そして規則化パラメタのいずれも必要としない。提案アプローチを、高次元合成データとEnron電子メールデータベースの両方において検証した。これらの例ではp>75000である。これにより、本アプローチが他の最新の方法を超える性能を持つことが示される。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高速線探索及び描写のための識別に基づいたテクスチャ遷移の確率論的モデリング
Classification-Based Probabilistic Modeling of Texture Transition for Fast Line Search Tracking and Delineation

Ali Shahrokni, University of Oxford, UK Tom Drummond, University of Cambridge, UK Francois Fleuret, IDIAP Research Institute, Switzerland Pascal Fua, Ecole Polytechnic Federale de Lausanne, Switzerland

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 3, pp. 570-576 , March 2009

Keywords: Texture, Tracking, Pixel classification, Markov random fields, Edge and feature detection

隠蔽されたテクスチャ境界を見つけるための識別に基づいたアプローチを紹介する。この識別器は、画像明度の離散特徴を用いる弱度学習器の組み合わせにより構成されている。これらの特徴は画像中の小さいパッチに対して定義されるものであり、高速に計算可能である。自然画像中のテクスチャのあるオブジェクトの、デジタル化された隠蔽輪郭をシミュレートする目的で設計されたデータベースを用いて、上記弱度学習器を訓練する。次に訓練済みの識別器のスコアを用いて、テクスチャ遷移がある場合の確率論的モデルを構築する。このモデルは、初期推定された境界に対して垂直方向の線探索境界検出にそのまま用いることができる。この方法は高速であるため、実時間及び対話式のアプリケーションに適している。またこの方法は、帯状の探索領域を必要とする頑健な推測器として働き、多数の観察なしに複雑なテクスチャ構造を扱うことができる。対話式二次元描写及び高速三次元トラッキングの両方のコンテキストにおいて結果を例証し、この方法を他の既存の線探索境界検出法と性能比較する。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3D点雲(Point Clouds)のための位置不確定性の閉形式表現
A Closed-Form Expression of the Positional Uncertainty for 3D Point Clouds

Kwang-Ho Bae; David Belton; Derek D. Lichti

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 4, pp. 577-590 , 4 2009

Keywords: error analysis, Range data, Eigenvalues and eigenvectors

ここに新規な、ほぼmonostatic(発信部と受信部が一体化)で、レーザー光の飛行時間(time-of-flight)によって距離測定した位置の不確定性の閉形式表現を提案する。表面に垂直な推定ベクトルの角度変動の陽な表現形式も導く。この表現は、表面の垂直ベクトルの正確な推定に有用であり、3次元の多数の点雲(point clouds)を対応付けするための異常値(outlier)を見つけるためにも有用である。これらの表現法による2つの現実的なアルゴリズムを利用した例を示す:推定垂直ベクトルの変動を最小化するような最適な局所近傍領域を見つける方法、および、点雲の再サンプリング法。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テキスト検索としてのビデオ配信の効率的視覚的探索
Efficient Visual Search of Videos Cast as Text Retrieval

Josef Sivic, Andrew Zisserman,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 4, pp. 591-606 , 4 2009

Keywords: Object recognition, Image/video retrieval

オブジェクト検索用クエリ(問合せ)画像が与えられたとき、ビデオ画像中のオブジェクトのすべての場合を検索し、見つけ出すための方法を述べる。オブジェクトは、視点に依存しない表現領域の記述子の集合で表され、そのため視点や照明や部分的隠蔽の影響を受けないで認識可能である。1回の連続撮影ビデオ(1ショット)内での時間的連続性を利用してその領域を追跡し、不安定な領域は除外される。転置ファイル法やテキストやドキュメントの頻度重み法を含む、統計的テキスト検索法、を利用することによって、効率的な検索が可能となる。あたかもテキストの検索において、まず単語の語幹を抽出し、何処にでも表れる特長の無い文字列を排除し、残ったユニークな単語をベクトルとみなして文書を検索するように、画像でも類似の手法を領域の識別子として利用する。最終的ランクは、この領域の空間的配置に依存する。その結果、検索は迅速で、Googleで実施されているようにランク付きの検索結果が返される。'Groundhog Day', 'Casablanca' および 'Run Lola Run',の特徴量を撮影したフィルムや、映画やインターネットからダウンロードした画像を検索したオブジェクト検索結果について述べる。異なる領域記述子による検索性能について調べ、いくつかのランク尺度の性能を比較した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


コンピュータビジョンにおける頭部ポーズの推測:調査論文
Head Pose Estimation in Computer Vision: A Survey

Erik Murphy-Chutorian, Mohan Manubhai Trivedi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 4, pp. 607-626 , 4 2009

Keywords: Introductory and Survey, Computer vision, Modeling and recovery of physical attributes, Human-centered computing, Vision I/O, Face and gesture recognition, Evaluation/methodology

 人が他人の頭部のポーズを推定することが出来るという誰でも持つ能力にコンピュータが挑戦することはユニークな挑戦となろう。顔の検出や認識は主要な集中研究領域と見なされてきたが、これに比べ、同定不変な頭のポーズ推定における厳密に評価されたシステムはほとんど存在しないし、一般的な解法もほとんど無い。本論文では頭部のポーズ推定における固有の困難さについて考察し、この分野の進展について述べられている系統立ったレビューについて述べる。我々は、各手法の特長と欠点に焦点を当て、このトピックについて出版された90本の最も革新的で特徴ある論文を考察する。これらシステムでは、ポーズの推定を大まかにする能力、厳密にする能力について比較し、制限のない環境に適用可能な手法に着目する。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最適類似度と回転角抽出のためにZernikeモーメントの比較法を改良する
Improving Zernike Moments Comparison for Optimal Similarity and Rotation Angle Retrieval

Jerome Revaud, Guillaume Lavoue, Atilla Baskurt

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 4, pp. 627-636 , 4 2009

Keywords: Moments, Object recognition, Shape

Zernikeモーメントは形状をロバストに記述できるだけでなく、その記述能力の高さでも強力な手法である。しかし、2つのZernike記述子の古典的な比較方法はモーメントの大きさの比較だけで、位相は無視されていた。ここに提案する方法は、回転不変性を保持しながら位相情報を取り入れた比較ができることである。この新しいZernike比較器と最適回転角度によって、古典的Zernike法の複雑度を保ちながら、パターン間の類似度がもっと正確に求められる。この角度情報は、3D情景理解を含む多くの用途にとって特に興味深い。この実験から、本手法は古典的類似度を遥かに凌ぐ能力を示した。特に、ノイズに対する検索能力や幾何学的変形に対する頑健さが大きく向上した。さらに、回転角度の推定は、最新のアルゴリズムに比べ、より正確だった。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2D, 3D, および 4D離散空間におけるsimple point(単純点)の特徴づけ
New Characterizations of Simple Points in 2D, 3D, and 4D Discrete Spaces

Michel Couprie Gilles Bertrand,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 4, pp. 637-648 , 4 2009

Keywords: Image Processing and Computer Vision, Pattern Recognition

分離したオブジェクトの点を除去してもその位相が変化しないとき、その点を単純点(simple point)と呼ぶ。本稿では、2,3,4次元における単純点の新規な特徴について述べ、このような点を検出する効率的アルゴリズムを述べる。この特長を証明するために、低次元の点の近傍における崩壊(collapse)演算における点の併合が有する2つの特徴量を確立する。本研究は立方体パターンの枠組みで処理されるが、これによって画像解析の健全な位相幾何学的基礎が与えられる。そして、離散的位相幾何学の主な概念、特に単純点について、取り出すことが出来る。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ロバストなウェーブレットに基づく超解像復元理論とアルゴリズム
Robust Wavelet-Based Super-Resolution Reconstruction: Theory and Algorithm

Hui Ji, Cornelia Fermuller

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 4, pp. 649-660 , 4 2009

Keywords: Image processing software, Enhancement

低解像度の連続画像から超高解像の画像を合成する問題の解析とアルゴリズムを紹介する。超解像画像の再構成には2つの問題の解が含まれている。その1つは2つのフレームの位置あわせ、他の一つは複数の並んだ低解像画像からの高解像画像再構成で、その両方とも超解像画像生成の性能には重要である。画像位置合わせについては新規なバッチアルゴリズムとともに述べてあるが、これは面に垂直なベクトルをフレーム間で同一にして同時にhomography(画像中の同一パターン領域)を推定する。この手法は、より長いビデオをきわめてうまく処理することが出来る。画像の再構成はウェーブレットに基づく繰り返しアルゴリズムと効率的なノイズ除去法とともに記述されている。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ありのままの実例に学ぶセグメンテーション法:動画のセグメンテーションから静止画のセグメンテーションを学習する
Segmentation According to Natural Examples: Learning Static Segmentation from Motion Segmentation

Michael G. Ross, Leslie Pack Kaelbling,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 4, pp. 661-676 , 4 2009

Keywords: Markov random fields, Computer vision

ありのままの実例に習うセグメンテーション(SANE)アルゴリズムにおいては、学習用ビデオデータ中の動くオブジェクトを抽出するために背景を引き算することによって、静止画中のオブジェクトを切り出し、これを事例として学習する。これによって各ビデオフレーム中のオブジェクトをセグメント化するための情報を提供できる。多数のフレームとセグメンテーションを集めてSANEが、動画の境界と形状の性質を学習するための訓練集合となる。新規な静止画といっしょに提示したとき、訓練用モデルは、観察される動画のセグメンテーションに類似したセグメンテーションを推測する。これによって自動的にビデオから訓練用データを生成できるから、比較的容易に新規な環境の新規なオブジェクトに適応できる。これが非学習法や人手によるラベル付け学習データに勝る利点である。本方式は、学習データ中の局所形状を利用することで、学習した局所検出器の性能を凌駕する。この性能は、グローバルのデータを使う学習済みトップダウンアルゴリズムと同程度である。1つのオブジェクトのクラスから学習した形状情報は他のクラスのセグメンテーションを補助することができる。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線形予測器の最適手順による追跡法
Tracking by an Optimal Sequence of Linear Predictors

Karel Zimmermann, Jiri Matas, Thomas Svoboda,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 4, pp. 677-692 , 4 2009

Keywords: Image Processing and Computer Vision, Tracking

ユーザー定義による追跡失敗(loss-of-lock)確率と精度に基づく追跡プロセスの計算複雑度を明確に最小化する学習法を提案する。追跡器は学習済み線形予測器の連続によって形成される。この予測器のロバスト性は、局所動き予測器の集合によるオブジェクトのモデル化によって達成されるーオブジェクトの動きは「はずれ値」に影響されない局所予測器から成るRansacアルゴリズムによって予測される。この予測追跡器の効率は(i) 局所予測器の単純さと (ii) すべての設計の決定事項に由来するー追跡器に利用される局所予測器の数—から、計算量(すなわち、予測するための観察数)、局所数だけでなくRansac計算の繰り返し数もまた、すべて学習最適化される必要がある。すべての時間のかかる演算は学習期間中に実行されるのでー追跡は各ステップでたった数百回の整数乗算が必要となるに過ぎない。1xK8 3200+のPCにおいて、予測器の評価には約30ミリ秒が必要であった。この提案手法の検証には、一般に入手可能な正解付き画像(約12000フレーム)を使った。実験の結果、本方式は、SIFT検出器、Lucas-Kanade追跡器やその他を、速度とロバスト製で上回った。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


混合ガウススケール場による写真画像のマルチスケールサブバンドのモデル化
Modeling Multiscale Subbands of Photographic Images with Fields of Gaussian Scale Mixtures

Siwei Lyu, Eero P. Simoncelli

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 4, pp. 693-706 , 4 2009

Keywords: Image Representation, Statistical, Enhancement, Restoration

写真画像が多段スケールで表現される場合の局所的統計量は、ガウススケール混合モデルによって記述できる。ここではこの局所記述は、混合ガウススケールのグローバルな場(FoGSM)を構成するための下地として利用する。特に、我々は多重スケールのサブバンドを、指数関数化した均一ガウス・マルコフ確率場(hGMRF)と第2の独立hGMRFの積としてモデル化する。このモデルのパラメータ推定が可能であり、hGMRFモデルから得られるサンプルが写真画像のサブバンド係数と類似した周辺統計量と結合統計量を持っていることを示す。FoGSMに基づくモデルにおける、ガウスノイズを取り除けるアルゴリズムを構築し、これが、最新のノイズ除去法と同等性能であることを示す。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2値形状演算子の多層学習法
Multilevel Training of Binary Morphological Operators

Nina S. T. Hirata

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 4, pp. 707-720 , 4 2009

Keywords: Morphological, Statistical, Classifier design and evaluation, Simplification of expressions, Concept learning, Machine learning, Pattern Recognition, Image Processing and Computer Vision

併進不変で、有限な隣接窓で定義可能な局所定義の2値の形状演算子の設計は、ブール代数関数を設計する課題に対応する。どんな教師付学習課題においても、サンプルを使って学習させる形状演算子の設計には過剰適応(オーバーフィッティング)の問題が付きまとう。大きな隣接画像があると、意図された設計より性能低下が生じやすい。本研究は多層レベルの設計を利用して、大きな隣接画像をうまく扱える手法を提案する。この主要なアイデアは、積み重ねられた(多重になった識別器の利用)識別器の一般化で、各学習段階において直前のレベルの演算子の出力を結合する。最後の演算子は、最終的に個々の結合した演算子ではなく、より大きな隣接画像に依存した多層レベル演算子である。実験によれば、より大きなウィンドウの部分ウィンドウだけを処理する2値演算子を組み合わせたものは、大きなウィンドウを対象にした一枚の演算子より常に勝る性能を示す。また、2値演算子を順次適用する手法は、より良い結果を得るための効果的多層化手法でもある。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自動的テキストカテゴリー化のための教師付き・伝統的な語句重み付け法
Supervised and Traditional Term Weighting Methods for Automatic Text Categorization

Man Lan, Chew Lim Tan, Jian Su, Yue Lu,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 4, pp. 721-735 , 4 2009

Keywords: Knowledge and data engineering tools and techniques, Clustering, classification, and association rules, Text mining, Database Applications, Database Management, Information Technology and Systems, Indexing methods, Content Analysis and Indexing, Information Storage and Retrieval, Information Technolog, Text analysis, Natural Language Processing, Artificial Intelligence, Computing Methodologies

テキストのベクトル空間モデル(VSM)では、テキスト文書の内容をベクトル空間に変換する課題であり、こうすることで文書がコンピュータに認識され、分類される。テキストにおいて、異なる語句(例えば、単語、句、など、テキストを検索するためのどんな索引識別子も含む)は異なる重要性を有する。語句重み付け法は、テキストの分類に適した語句の重み付けを割り当てる。本研究においては、広く用いられている(伝統的な)教師無しと、教師付きの重み付け法をいくつか調べ、SVM と kNNアルゴリズムを組み合わせてベンチマークのデータ集合に適用する。集められたデータ集合を考察し、我々は新規で単純な“tf.rf”という、語句によるテキストの識別能力増強方法を提案する。この提案手法は、制御された実験による結果から、教師付き語句重み法の性能は一定ではない。特に、我々の提案する教師付き語句重み付き法の性能は、常に他の語句重み付き法を上回るが、他の、情報理論に基づく、あるいは、統計的尺度に基づく教師付き手法は、全実験中、最低の性能であった。他方において、人気のある、” tf.idf”法は、異なるデータ集合間では性能が均一ではなかった。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時系列記号列の近似マッチングのための編集距離モデル
An Edit-Distance Model for the Approximate Matching of Timed Strings

Simon Dobrisek, Janez Zibert, Nikola Pavesic, France Mihelic,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 4, pp. 736-741 , 4 2009

Keywords: Pattern matching, Similarity measures, Classifier design and evaluation, Speech recognition and synthesis

連続、あるいは、非連続な時系列信号の近似的マッチングのための編集距離モデルを紹介する。このモデルは重み付き編集距離の考え方に制限時間付き編集演算を導入することで、編集コストを時間依存性に拡張する。制限時間付き挿入と削除に関連する制限時間付きヌル記号が導入された。このモデルの有用性は、TIMITのための電話音声データの認識誤りを類別する実証実験で示された。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


指紋の特異点の空間分布について
On the Spatial Distribution of Fingerprint Singularities

Raffaele Cappelli, Davide Maltoni,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 4, pp. 742-448 , 4 2009

Keywords: Fingerprint singularities, Location of singularities, Probability density function estimation, Singularity detection, Expectation-Maximization

指紋における特異点は、いくつかの指紋認識と識別システムにおいて重要な役目をする。異なる指紋分類中の特異点の位置に関する一般的関係や制約は良く知られているとは言え、我々の知る限り、今日までその統計的モデルは開発されてない。本論文では本来の指紋中の特異点の場所の分布と、ラベル付きサンプルの代表的データ集合から4つの主要な指紋クラスの確率分布関数を導いた。得られた結論は、特異点の位置を利用して、多くの手段の精度向上に直接役立つことが、2つの指紋識別実験と合成実験によって確認された。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率場を利用したベイズ非線形主成分分析
Bayesian Nonlinear Principal Component Analysis Using Random Fields

Heng Lian

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 4, pp. 749-754 , 4 2009

Keywords: Statistical computing, Statistical

主成分分析の確率的定式化にヒントを得て、我々は新規で非線形な次元縮小モデルを提案する。潜在空間(latent space)の異なる場所における異なる変換行列を特定し、マルコフ確率場を事前に適用し、変換を平滑化することで、非線形性が達成される。これはvon Mises-Fisher分布らかの最近のサンプリング演算法によって可能になった。このアルゴリズムの演算特性は、手書き数字データに対するシミュレーションと適用によって図示されている。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔認識のためのノンパラメトリックな識別分析
Nonparametric Discriminant Analysis for Face Recognition

Zhifeng Li, Dahua Lin, Xiaoou Tang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 4, pp. 755-761 , 4 2009

Keywords: Face and gesture recognition, Classifier design and evaluation

本論文ではノンパラメトリック識別分析法(NDA)でマルチ識別器を統合した顔認識の新規な枠組みの開発について述べる。LDAによる伝統的手法ではパラメトリックな分散行列の性質に起因する本質的な限界があり、ガウス分布の仮定から逃れられない。現実の分布が非ガウス的であるときこれらの手法では性能が顕著に低下する。この問題を取り上げるとき、分散行列を新規に定式化することによって2クラスのノンパラメトリック識別分析から多クラスへと拡張する。次に、更に2つの改良多クラスNDAアルゴリズムを開発する(NSAとNFA)が、それぞれがクラス内分散行列の主空間とヌル空間に基づく、互いに補完的手法を備えている。NSAに比べて、識別境界情報を利用することでNFAはより優れている。2種類のNFA (PNFAと NNFA) の補完的性質を利用するために、双対NFAに基づく多クラス識別器融合の枠組みを開発した結果、過完備なGabor表現を採用して認識性能を増強した。2つの困難な顔データベースであるPurdue ARと XM2VTに対する比較実験によって、従来の部分空間に基づく手法より改善された新規なアルゴリズムの結果を示す。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.31, No.4


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.31, No.5


新しい角度木(angular tree)を用いたデジタル点群の近似マッチング
Approximate Matching of Digital Point Sets Using a Novel Angular Tree

Partha Bhowmick Bhargab Bhattacharya

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 5, pp. 769-782 , May 2009

Keywords: Approximate matching, circular range query, digital geometry, point set pattern matching, polygonal range query.

デジタル画像(digital plane)におけるパターンもしくは形状のマッチングと解析は、コンピュータビジョンとパターン認識の様々な問題の中でも最も重要なものである。デジタル点群は、デジタル画像中のオブジェクトに対応するパターンである。実際的な応用における近似点群パターンマッチング(Approximate Point Set Pattern Matching: APSPM)のために、いくつかの種類のデータ構造が利用可能ではあるが、これらをデジタル処理アルゴリズムで利用するためには大幅な変更が必要である。このギャップを埋めるために、“角度木”と呼ばれる新しいデータ構造を提案する。これは効率的かつ誤差管理可能なデジタル画像における円形レンジのクエリ(circular range query)を取り扱うためのものである。データ点群中で最も離れた2つのデータ点を、パターンセット及び背景セットの最初の対応として用いることができる。提案するAPSPMアルゴリズムを実装するために、デジタル幾何における円もしくは円盤領域のトポロジー特徴に加え、いくつかの古典的な離散構造とコンピュータ幾何の方法論を用いる。このAPSPMアルゴリズムは、様々な点群に対して試験された角度木に基づいている。本稿で説明する試験結果は、APSPMアルゴリズムをサポートする新しいデータ構造の効率性と汎用性を示している。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ユークリッド位置あわせ問題のための分岐限定法(Branch-and-Bound methods)
Branch-and-Bound Methods for Euclidean Registration Problems

Carl Olsson, Lund University, Lund Fredrik Kahl, Lund University, Lund Magnus Oskarsson, Lund University, Lund

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 5, pp. 783-794 , May 2009

Keywords: Registration, camera pose, global optimization, branch-and-bound.

本稿では、オブジェクト姿勢決定問題の大域最適解を見つけるための、実用的かつ効率的な方法を提案する。ユークリッド(もしくは類似の)変換を含む、様々なタイプの姿勢及び位置あわせ問題を解くために、点対点、点対線、及び点対面の対応を用いることが可能なフレームワークを示す。カメラ姿勢復元のための、反復最近点アルゴリズム(iterative closest point algorithm)や束調整法(bundle adjustment method)などの従来の方法は、対応する最適化問題の非凸性のために極小値にとらわれることがありうる。この数学的最適化問題を解くための我々のアプローチでは、大域最適性が保証されている。我々の最適化法は大域最適化理論に基づくものであり、特に凸型過小評価器(convex underestimator)を分岐限定法(Branch-and-Bound methods)と組み合わせて用いることからアイディアを得ている。本稿では、最適性が証明されたアルゴリズムを示す。これは合成及び実データの両方に対して良好な性能を発揮する。これまでの方法が極小値にとらわれて失敗する問題の例も示す。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


関節でつながったオブジェクトの動き認識のための、分布に基づいた次元削減
Distribution-Based Dimensionality Reduction Applied to Articulated Motion Recognition

Sunita Nayak, Photometria Inc., San Diego Sudeep Sarkar, University of South Florida, Tampa Barbara Loeding, University of South Florida, Lakeland

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 5, pp. 795-810 , May 2009

Keywords: Human motion classification, embedding probability density functions, gesture recognition, sign language recognition.

結節オブジェクト(関節でつながったオブジェクト)の動きを表現する方法のいくつかは、方位、色、相対的分布などの低次特徴の統計的分布のフレーム内抽象化に基を置いている。結節オブジェクトの動きに従って変化する各部位の構成に従って、上記の統計的分布は変化し、これにより我々が構成空間(configuration space)と呼ぶ分布の潜在空間(latent space)の軌跡を追跡する。動的時間伸縮(dynamic time warping)等の標準的な手法による認識タスクで、これらの軌跡を用いることができる。本稿の中心となる理論は、フレーム毎の分布を低次元空間に埋め込むことで、様々な意味ある確率距離の推測を可能とすることである。この分布は確率関数とみなすことができる。また、本アプローチで推測可能な確率距離には、Chernoff, Bhattacharya, Matsushita, Kullback-Leibler(KL)、もしくはこの空間の点間の内積に基づいた対称KL距離などがある。計算効率の高さに加え、この表現は動きシグネチャ(motion signature)の速度正規化(speed-normalized)マッチングが可能である。速度正規化表現は、前記の構成軌跡(configuration trajectories)を円弧の長さに従って補間することで定式化される。このとき、シーケンス間の時間的スケールの変分のいかなる情報も用いていない。5つの異なる確率距離尺度を用いた実験を行い、手話認識(この問題では可能性のある多数のクラスを扱う必要がある)、ジェスチャー認識(人間の個体差が問題となる)、そして人間間のインタラクションシーケンス(シーケンス分割が問題)という、3つの異なるコンテキストでこの表現の有用性を示す。この実験により、それぞれのコンテキストに適した距離尺度を用いることの重要性が確認された。低次元空間への埋め込みにより、マッチング精度を保ったまま、速度が2倍ないし3倍高速になる。低次のパラメタ、パラメタ埋め込み、そして時間スケールパラメタに関して、この表現の頑健性を実際的に確立した。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像変換とぼかし
Image Transformations and Blurring

Justin Domke, University of Maryland, College Park Yiannis Aloimonos, University of Maryland, College Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 5, pp. 811-823 , May 2009

Keywords: Reconstruction, restoration, sharpening and deblurring, smoothing.

撮像プロセスで入射光がぼかされるため、ある表面を撮影した複数の画像は、この表面に関する同じ情報を持っているわけではない。それゆえ、一般的には複数のシーンビュー(画像)における対応点は異なる画像値(明度)を持つ。複数ビュー幾何は対応点の位置に対する拘束を与えるが、対応位置の関係を与えるわけではない。本稿ではこれらの関係の扱いの基礎を与える。まず“理想的”及び“現実の”画像の意味づけを与える。これらはそれぞれ、入射光及び撮像プロセスを経た信号に対応する。このフレームワークにより画像形成におけるフィルタリング的視点と幾何的視点を分離する。次にこの2つの視点の片方から他方をどのように生成するかを検討する。この二つの視点の間の変換がアフィン変換であるとき、アフィン行列の特異値のただひとつが正である場合のみ、左記の生成が可能であることが示される。次に単一の出力画像を得るために、ある表面のいくつかのビューの情報をどのように組み合わせるかを検討する。“頻度分割”と呼ばれる新しいツールを開発することで、不鮮明化のカーネル関数に関する事前知識を用いずに、上記変換が可能であることを示す。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Make3D:単一の静止画からの三次元シーン構造の学習
Make3D: Learning 3D Scene Structure from a Single Still Image

Ashutosh Saxena, Stanford University, CA Min Sun, Princeton University, NJ Andrew Y. Ng, Stanford University, CA

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 5, pp. 824-840 , May 2009

Keywords: Machine learning, monocular vision, learning depth, vision and scene understanding, scene analysis, depth cues.

非構造化環境で、単一の静止画から詳細な三次元構造を推測する問題を検討する。この研究の目的は、定量的に正確で且つ視覚的にも正しく見える三次元モデルを生成することである。画像中の各均質小型パッチ(small homogeneous patch)に対して、パッチの三次元位置と三次元方位を決める“平面パラメタ”を推定するために、マルコフ確率場(Markov Random Field: MRF)を用いる。このMRFは教師付き学習及び画像奥行きキューと同画像の異なる部位間の関係を用いて学習されたものである。環境が小さい平面により構成されるという仮定のほかに、我々のモデルはシーンに関して明示的な仮定は全く用いていない。この特徴により同アルゴリズムは、既存の方法よりもはるかに詳細な三次元構造を得ることができる。また三次元仮想現実空間での飛行において、顕著な非垂直構造を持つシーンに対しても、既存の方法よりリッチな視覚的効果を得ることができる。これらは画像に基づいたレンダリングを用いて生成されたものである。このアプローチは、インターネット上で取得した588画像中の64.9パーセントの画像に対して定量的に正しい三次元モデルを生成した。少数の画像から大規模な三次元モデルを生成するように、同モデルの拡張も行った。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部分空間摂動(subspace perturbation)解析に基づいた低階数行列フィッティングと動きからの構造復元問題への適用
Low-Rank Matrix Fitting Based on Subspace Perturbation Analysis with Applications to Structure from Motion

Hongjun Jia, The Ohio State University, Columbus Aleix M. Martinez, The Ohio State University, Columbus

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 5, pp. 841-854 , May 2009

Keywords: Low-rank matrix, noise, missing data, random matrix, matrix perturbation, subspace analysis, structure from motion, computer vision, pattern recognition.

オリジナルの高ランクデータ行列に最もよくフィットする低階数行列を見つけることは、科学技術分野でたびたび問題となる。この問題は、オリジナルデータ行列のいくつかの要素が不明で、且つ、その他の要素に未知の付加ノイズ項がある場合に特に困難なものとなる。単一のr次元解空間を共有するr列の行列の組みを連結することで、前者の問題を解くことが可能である。残念ながら、ありうる部分行列は一般的には非常に多数あり、それゆえ一般的には、あるr列の行列の組みにより求められる解は、他の組みによる解とは異なる。理想的にはノイズの影響が最も少ない解を求めたいのだが、このためには、未知のノイズ項による影響がより小さいr行の行列(これは元々の特徴点を表している)を選ぶ必要がある。本稿ではこの選択を正しく行うための単一の基準を示す。本研究の主な成果はr行の行列のrベクトルが離散的であればある程、ノイズによる影響を受けづらくなることを、定式的に証明したことである。この結果とノイズモデルの利用と組み合わせることで、各r列の行列に対してノイズと隠蔽が持つ効果の上界を導出する。階数rのノイズ無し行列を復元するために、この指標が効果的に利用できることが示される。最後にこの指標を用いてアフィン型及び射影型の動きからの構造復元(structure-from-motion: SFM)アルゴリズムをそれぞれ導出する。合成データセット及び実データセット両者を用いた大規模な検証により、提案アプローチが他の最新の手法を上回る性能を持つことが示される。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


筆記制限なしの手書き認識のための新しいコネクショニストシステム
A Novel Connectionist System for Unconstrained Handwriting Recognition

Alex Graves, Technische Universit?t, M?nchen, Munich Marcus Liwicki, Research Group Knowledge Management, DFKI-German Research Center for Artificial Intelligence, Kaiserslautern Santiago Fern?ndez, IDSIA, Switzerland Roman Bertolami, Institute of Computer Science and Applied Mathematics, Research Group on Computer Vision and Artificial Intelligence, Bern Horst Bunke, Institute of Computer Science and Applied Mathematics, Research Group on Computer Vision and Artificial Intelligence, Bern J?rgen Schmidhuber, Technische Universit?t, M?nchen, Munich

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 5, pp. 855-868 , May 2009

Keywords: Handwriting recognition, online handwriting, offline handwriting, connectionist temporal classification, bidirectional long short-term memory, recurrent neural networks, hidden Markov model.

筆記制限なしの手書きテキスト行を認識することは困難な課題である。周囲のコンテキストを利用する必要があることに加え、筆写体もしくは隣と重複した文字を分割する難しさのために、現在最良の認識システムでも手書き文字の認識率は低い。この分野における最近の進展は、主に前処理の向上か言語モデリングの発展によるものである。これに比べ、基本的な認識アルゴリズムの研究は少ない。もちろん殆どのシステムが同じ隠れマルコフモデル(Hidden Markov Model: HMM)を利用して作られている。よく知られた欠点があるにもかかわらずHMMは会話認識及び手書き認識で数十年来用いられてきた。本稿では新しいタイプの反復的ニューラルネットワークに基づいた、代替アプローチを提案する。我々のアプローチは、データが分割困難且つ長区間の双方向依存性を持つ場合のシーケンスラベル付けのために特化して設計されている。2つの大規模な筆記制限なしの手書き文字データベースを用いた実験により、我々のアプローチがオンラインデータに対して79.7%、オフラインデータに対して74.1%の単語認識率を達成することが示される。これは最新のHMMに基づいたシステムを有意に凌駕する性能である。更に辞書サイズに対する頑健性を例証し、各隠れ層の影響を測定し、そしてコンテキストの使用を解析する。最後に、このネットワークとHMMとの違いを詳細に検討し、この方式の優れた性能の理由を考える。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


NV木:大規模高次元コレクションにおける近似探索のためのハードディスクの使用に基づいた効率的なインデクス
NV-Tree: An Efficient Disk-Based Index for Approximate Search in Very Large High-Dimensional Collections

Herwig Lejsek, Reykjavik University, Reykjavik Fri?rik Hei?ar ?smundsson, Reykjavik University, Reykjavik Bj?rn ??r J?nsson, Reykjavik University, Reykjavik Laurent Amsaleg, CNRS-IRISA, RENNES

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 5, pp. 869-883 , May 2009

Keywords: High-dimensional indexing, multimedia indexing, very large databases, approximate searches.

過去20年にわたり、高次元データセットにおける最近傍探索に関して数多くの研究がおこなわれてきた。これらの殆どは、小規模のコレクションのみを用いてテストされてきた。大規模なコレクションを検討する場合には、大容量のメインメモリを持つシステムなどの高性能な計算環境が用いられてきた。ハードディスク上のデータにアクセスすることは殆どの場合において避けられてきた。これはハードディスクなどのディスクオペレーションは低速であると考えられてきたからである。ただし、既に示されているように、大容量のメモリを用いることは、経済的ではない。それゆえ本稿では非常に効率的なハードディスクの使用に基づいたデータ構造であるNV木を提案する。これは、高次元データの大規模コレクションに対しても、単一のディスク操作で最近傍クエリに対する良い近似解を与える。単一のNV木を用いることで、得られる結果は高い検索率(recall)を持つが、偽陽性(false-positive)も多い。2つもしくは3つのNV木を組み合わせることで、高い検索率を保持したまま、これらの偽陽性のほとんどを回避することができる。最後にNV木と、ε距離探索のために広く用いられている局所性感度ハッシュ法(Locality Sensitive Hashing)を比較する。これらが近い結果をもたらすこと、そしてNV木のディスク読み込みの回数が非常に少ないことを示す。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


照度不変マッチングと形状復元のための頑健なアルベド推定
Robust Estimation of Albedo for Illumination-Invariant Matching and Shape Recovery

Soma Biswas, University of Maryland, College Park Gaurav Aggarwal, Univ. of Maryland, College Park Rama Chellappa, University of Maryland, College Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 5, pp. 884-899 , May 2009

Keywords: Albedo estimation, shape recovery, image estimation, illumination-invariant matching.

単一画像からのアルベド推定のための非定常確率的フィルタリングフレームワークを紹介する。アルベド推定に関してはこれまでにいくつかのアプローチが開発されてきた。しかしアルベド推定の精度向上のために、表面法線と光源方向それぞれの推定誤差を考慮に入れていたものは少ない。本稿で提案するアプローチでは、アルベドの頑健な推定のために表面法線と光源方向の誤差統計量を効果的に用いる。本研究では画像中の光源は単一もしくは複数とする。この処理により得られるアルベド推定を用いて、オブジェクトの形状を復元するためのアルベドのない正規化画像を生成する。従来の陰影からの形状復元(Shape-From-Shading:SFS)アプローチは往々にして、ターゲットオブジェクトの形状を復元するために定常もしくは対で定常なアルベドと、既知の光源方向を前提としていた。推定されたアルベドを用いることで、変化するアルベドマップと未知の光源という条件下でオブジェクトの形状を推定する一般的な問題が、従来のSFSアプローチで扱うことが可能な問題に簡単化される。実験結果により提案アプローチと、これを用いた照明不変なマッチング及び形状復元の効果が示される。推定されたアルベドマップと正解情報を比較する。このアルベドマップは、照明が変化する条件下での顔認識のための照明不変な特徴として利用される。この認識の結果は、現在の最新の手法と同程度の性能を持つ。撮像条件に関して僅かに絞り込みを行いインターネット上で検索、取得した画像コレクションを用いた実験でも、良好な形状復元結果が得られた。復元された形状は、新しい照明条件下での新しいビューを合成するために用いられる。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変形に関する単一のパラメタ族条件下での三次元中心軸の推移
Transitions of the 3D Medial Axis under a One-Parameter Family of Deformations

Peter J. Giblin, University of Liverpool, Liverpool Benjamin B. Kimia, Brown University, Providence Anthony J. Pollitt, University of Liverpool, Liverpool

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 5, pp. 900-918 , May 2009

Keywords: Medial axis, shape, singularity, skeleton, transition.

変形処理による形状の中心軸の不安定性は、認識及びその他の応用分野で変形処理を利用するための大きな障害であるとみなされてきた。これらの不安定性もしくは推移は、形状変化で中心軸グラフが急激に変化した場合に起きる。識別された不安定性を用いて変形パスを表現するようなオブジェクト認識システムの開発において、ショックグラフのための2次元推移の識別に関する最近の研究成果は重要な要素である。三次元中心軸の生成的遷移の識別により、二次元のものと同様に三次元空間における類似した表現にたどりつくはずである。本稿では球面と表面のコンタクトの順序を検討することでこれらの遷移を識別し、これにより可能性のある遷移の数値化を行う。この遷移はケースバイケースで検討する。どの変形族でも発生しないため除外されるケースもある。これら以外では、変形の単一パラメタ族における非生成的とみなされるものもある。最後に、残りのケースそれぞれに対して特定の例を与えることで、これらが独立したものとして示される。我々の研究は、Bogaevskyの研究にヒントを得たものである。Bogaevskyの研究は、ハミルトン‐ヤコビ方程式(Hamilton-Jacobi equations)の粘性解(viscosity solutions)の調査の一環として上記推移を算出するものである。我々の研究の成果は、より具体的なアプローチを取ったことであり、この研究をコンピュータビジョンの研究コミュニティに広く知らしめたこと、そして、単純な表面を用いて、様々な推移に対して明示的な解釈を与えたことである。我々は、これらの推移の識別が、実際のアプリケーションにおける中心軸の規則化を成功裏に行うための必要不可欠なものであると考えている。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


逐次ベイズフィッティングフレームワークにおける、連続密度伝播によるビジュアルトラッキング
Visual Tracking by Continuous Density Propagation in Sequential Bayesian Filtering Framework

Bohyung Han, Mobileye Vision Technologies, Princeton Ying Zhu, Siemens Corporate Research, Princeton Dorin Comaniciu, Siemens Corporate Research, Princeton Larry S. Davis, University of Maryland - College Park, College Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 5, pp. 919-930 , May 2009

Keywords: Bayesian filtering, density interpolation, density approximation, mean shift, density propagation, visual tracking, particle filter.

非線形システム及び非ガウシアン動的システム(non-Gaussian dynamic systems)のための、確率密度関数の推定と伝播のための一般的フレームワークを与える能力を持つがゆえに、パーティクルフィルタリング(particle filtering)はビジュアルトラッキング問題でよく用いられる。しかしこのアルゴリズムはモンテカルロ法に基づいたものであり、標本化と測量のためのコストが問題となっている。これは特に高次元のデータを扱う場合に大きな問題となる。本稿で我々は、この古典的な分子フィルタに代わる手法を示す。従来の分子フィルタによるアプローチでは、より良い近似と効果的な伝播のためには、前提となる密度関数が解析解として表現されていることが求められていた。密度補間手法と密度近似手法を導入することで、ガウス混合を伴う尤度と事後確率密度を表現する。ここで全ての関連するパラメタは自動的に決定される。提案する解析的手法は、高次元空間における標本化において、より効率的であることが示される。このアルゴリズムを実時間トラッキング問題に適用し、その性能を実際のビデオシーケンス及び合成データを用いた実験で示す。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パターン識別のための非対称主成分及び判別分析
Asymmetric Principal Component and Discriminant Analyses for Pattern Classification

Xudong Jiang, Nanyang Technological University, Singapore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 5, pp. 931-937 , May 2009

Keywords: Dimension reduction, feature extraction, principal component analysis, discriminant analysis, classification, face detection.

本稿では、パターン識別における主成分と判別分析の役割について検討し、非対称クラス及び/もしくは非平衡訓練データを用いた場合の、これら手法の問題を調べる。非対称主成分解析(Asymmetric Principal Component Analysis: APCA)は、信頼できない次元を、従来のPCAより効率的に削除するために提案されたものである。2クラス問題を対象とし、固有値を正規化するために、APCA部分空間における非対称判別分析を提案する。この固有値とは一般的に、対応する次元における変数のバイアスされた推測量である。これらは非対称クラス及び/もしくは非平衡訓練データのための信頼できる判別特徴抽出を利用したものである。関連する他の手法と比較する実験を行うことで、提案アプローチを検証する。この実験では、テストした全ての手法の中で、提案手法が常に最も高い識別精度を示した。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単眼ビューからの投射体の三次元位置及び速度の推定
Estimating 3D Positions and Velocities of Projectiles from Monocular Views

Evan Ribnick, University of Minnesota, Minneapolis Stefan Atev, University of Minnesota, Minneapolis Nikolaos P. Papanikolopoulos, University of Minnesota, Minneapolis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 5, pp. 938-944 , May 2009

Keywords: 3D localization, optimization, projectile motion.

本稿では、定常的な単眼ビューにおける明確な動きに基づいた、三次元空間における投射体(projectile)の位置決め問題を取り扱う。完全に理論的な解析方法を開発し、これにより単一解の存在のための最小条件を確立する。今回の研究により得られた理論的な結果は、投射体の動きを利用するアプリケーションに対して重要な意味を持っている。本稿では頑健かつ非線形な最適化に基づいた定式化を提案する。また、コスト関数の局所凸性構造に関する詳細な実験により、局所最適化手法の裏付けを取る。実験の結果により、本アプローチの潜在能力を検証する。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


標本からのスケルトン形状の抽象化
Skeletal Shape Abstraction from Examples

M. Fatih Demirci, TOBB University of Economics and Technology, Ankara Ali Shokoufandeh, Drexel University, Philadelphia Sven J. Dickinson, University of Toronto, Toronto

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 5, pp. 944-952 , May 2009

Keywords: Shape abstraction, medial axis graphs, prototype learning, many-to-many graph matching.

標本セットからクラスプロトタイプを学習することはオブジェクト認識分野での重要な課題である。この問題は注目を集めつつあるが、この問題の殆どのアプローチでは、局所特徴の一対一対応を前提としており、これが形状の真の抽象化の学習能力を制限する原因となっている。本稿では、標本セットからの抽象化形状プロトタイプの学習のための新しい技法を紹介する。この技法では、特徴が多対多の対応を持っている。二次元形状の分野に焦点を当て、シルエットを中心軸グラフとして表現する。このグラフは、中心ブランチ(medial branches)により定義される“パーツ”に対応したノードと、隣接するパーツを連結するエッジを持つ。中心軸グラフの対が与えられた時、これらのノード間の多対多の対応を構築し、連結されたパーツ間の対応を見つける。これらの対応に基づいて抽象化された中心軸グラフ、ノードに関連付けられた位置及び半径特徴と共に復元する。認識タスクにおいてこの抽象化されたプロトタイプを評価する。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ガウス混合のための局所特徴選択とモデル検出の同時実行
Simultaneous Localized Feature Selection and Model Detection for Gaussian Mixtures

Yuanhong Li, Wayne State University, Detroit Ming Dong, Wayne State University, Detroit Jing Hua, Wayne State University, Detroit

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 5, pp. 953-960 , May 2009

Keywords: Unsupervised, localized, feature selection, Bayesian.

本稿では、教師無し学習のための局所特徴選択とモデル検出を同時に行う新しいアプローチを提案する。このアプローチでは、ベイズ変分法学習によりガウス混合の他のパラメタと共に局所特徴点(local feature saliency)を推定する。合成データセット及び実データセットを利用した実験により、我々のアプローチが、大域特徴選択法と部分空間クラスタリング法の両者を上回る性能を持つことが示される。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.31, No.6


アイリス(虹彩)コード中の最良ビット
The Best Bits in an Iris Code

Karen P. Hollingsworth, Kevin W. Bowyer, Patrick J. Flynn

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 6, pp. 964-973 , 6 2009

Keywords: Computer vision, Feature Measurement

生体情報システムではアイリス(虹彩)画像にフィルターを施して、そのテクスチャーについてのコードを抽出する。Daugmanの方法では2値のアイリスコードをフィルター処理したマップを得る。2つのアイリスコード間のハミング距離比率(2つのハミング距離成分中の異なっている割合)が計算され、この計算された距離基づいて、その人の同一性が決定される。ハミング距離比率は、アイリスコード中のすべてのビットに同じ重みを与える。しかし、すべてのコードが同じように有用である訳ではない。我々の研究は、このコードの中で、より整合性が高いものがあることを記載する初めての実験報告である。アイリスの異なる領域において、その相対的妥当性が比較・評価され、以前の研究と異なり、中間リングのアイリスが内側のリングよりも妥当性が高いことを見つけた。整合性の無いビットが存在する現象は性差や異なるフィルターによる。その原因の可能性として、セグメンテーション、位置あわせ、フィルターの違いなどが調べられた。そして、不整合性は、多くの場合位相応答の量子化が荒すぎたことによる。アイリスコードビットにマスキングすることは、複素平面の座標軸近傍への複素フィルター応答に対応し、ハミング距離のマッチするものと、マッチしないものの分離が改善する。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオ画像からの統合的な深さ画像の再構成
Consistent Depth Maps Recovery from a Video Sequence

Guofeng Zhang, Jiaya Jia, Tien-Tsin Wong, Hujun Bao

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 6, pp. 974-988 , 6 2009

Keywords: Stereo, Motion, Depth cues

本論文ではビデオ画像から、深さ画像を統合的に再構成する新規な方法を紹介する。画像ノイズ、隠蔽、はずれ値などの主要な課題を処理してステレオ画像を再構成するための一括最適化の枠組みを提案する。典型的なマルチビューステレオ法と異なり、提案手法は画像整合性条件だけでなく、多数のフレームに統計的で厳密な幾何学的整合性も要求する。その結果、過剰に平滑化することなく、高密度の深さマップを経時的で自然に保つことができる。この推論を扱いやすくするために交互最適化法を紹介する。まず最初に先験セグメンテーションを利用した不整合マップを初期化し、次に、一括最適化によって不整合部を精緻化する。視認性パラメータを定義することなく、再構築ノイズと確率的視認性を厳密にモデル化する。一括最適化の後、効率的な時空融合アルゴリズムを導入し、更に再構成ノイズを減少する。この自動的深さ再構成法は、多様な困難なビデオ画像を利用して、評価しされた。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


紛らわしい偶然の一致によって検出された判別顕著性による偶然の一致の検出
Discriminant Saliency, the Detection of Suspicious Coincidences, and Applications to Visual Recognition

Dashan Gao, Sunhyoung Han, Nuno Vasconcelos

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 6, pp. 989-1005 , 6 2009

Keywords: visual saliency, interest point detection, coincidence detection, visual recognition, object detection from cluttered scenes, infomax feature selection, saliency measures, natural image statistics

本質的には認識問題と結びついている、トップダウンの視覚的顕著性の判別定式化を提案する。この新規な定式化は、情報最大化、紛らわしい認識結果の推定、最小不確実性による識別、誤差確率最小化による識別など、多くの認知系の古典的原理と密接に関連していることを示す。この原理を自然画像への適用統計を利用した計算可能な最節約原理といっしょに実装化することによって調査した。紛らわしい類似画像を検出することを利用したBarlowの推測原理によって、計算効率の高い顕著性の尺度が得られ、これがほぼ最適な識別結果を与えることが示される。この原理は、顕著性判別、特徴量選択、および、顕著性検出における2つの基本的解に採用された。その結果得られた顕著性検出器は多くの興味ある特徴を有しており、視覚認識のための注目点としての妥当性の観点から、注視点を効率的に選択する機能を持つ。実験によれば、選択された特徴点は、1)大量の複雑な背景中であっても対象物を検出し、2)画像識別に有効な情報を捕捉でき、3)顕著と思われる有望な視覚的特徴集合、を効率的に選択できた。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多面体表面における正確な測地線と最短経路
Exact Geodesics and Shortest Paths on Polyhedral Surfaces

Mukund Balasubramanian, Jonathan R. Polimeni, Eric L. Schwartz

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 6, pp. 1006-1016 , 6 2009

Keywords: Curve, surface, solid, and object representations, Differential geometry, Flat maps, Triangular meshes, Surface-based analysis, Computational geometry

我々は凸と凹の多面体上の距離を計算する2つのアルゴリズムを紹介する。最初のアルゴリズムは、両多面体上の正確な測地距離を計算し、2番目のアルゴリズムはこれらを結合して正確な最小経路を計算する。両アルゴリズム共に、正確な最小測地経路と最小経路を計算できるように拡張できる。これらのアルゴリズムは実装化され、正確な解が判っている表面によって、その精度と計算時間が評価された。計算時間の増加は距離、あるいは、頂点数に関して3次関数、またはそれ以下であった。これらアルゴリズムは正確な距離計算は数万の頂点を有する大規模な表面に対して実行可能で、曲面の多様体をほぼ等方的な表面平坦化手法に変換するために必要な構成要素となっている。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


正定値の有限次元と無限次元のカーネルのためのカーネル判別分析
Kernel Discriminant Analysis for Positive Definite and Indefinite Kernels

Elzbieta Pekalska, Bernard Haasdonk

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 6, pp. 1017-1032 , 6 2009

Keywords: machine learning, pattern recognition, kernel methods, indefinite kernels, quadratic discriminant

カーネル法は数学的なエレガントさと効率性のお陰で、パターン解析において、確立し成功を収めている手法である。今まで、いわゆるカーネルトリックと称する手法に基づいて多数の非線形なパターン認識の拡張方式が提案されてきた。本論文の目的は2つある。第1に、今でも欠けている新しいカーネルのツールを追加すること、特に、二次判別法(QKD)を。第2に、無限次元カーネルにカーネル線形や2次の適当な拡張形式を提案すること。我々は任意の対称的な類似尺度で定義されるカーネルが応用できる識別器を紹介する。これは実用上からも重要であるのは、しばしば課題に適した類似尺度は、正定値という要請に違反するからである。従来の場面では、カーネルに誘導された空間に広がる不均一なクラスを有するデータにおいては線形識別子では十分には分離可能ではないため、KQDは優位であるはずだ。我々は、人工的データと実データの両方において、有限正定値と無限正定値の両方のカーネルで図解する。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


潜在掌紋のマッチング
Latent Palmprint Matching

Anil K. Jain, Jianjiang Feng

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 6, pp. 1032-1047 , 6 2009

Keywords: fingerprint, palmprint

潜在指紋(latent print)とは、本来は見えない指紋という意味であるが、必ずしも見えないものだけを指さず、通常の指紋として形成されたパターン以外の、汗や機械油などで残されたすべてを含む。潜在指紋や掌紋は犯罪科学捜査の約30%において犯罪現場から復元されており、その重要性は明らかである。一方、掌紋に基づいて開発された個人認証システムは、ほとんどが100dpi程度の解像度で処理されるため完全一致マッチングを採用している。我々は科学捜査で要求される潜在的—完全掌紋マッチングシステムを提案する。我々のシステムは500 dpiの解像度で取得された掌紋特徴を利用する。潜在掌紋によるマッチングはきわめて困難な課題であるが、その原因は犯罪現場における潜在掌紋がしばしば不完全であること、また、画像が部分的であったり、複雑な背景の上に形成されていることによる。その他の困難さとしては、多くの皺があり、特徴量が掌紋中に極めて多いこと、があげられる。掌紋中の尾根方向と周期を推測するロバストなアルゴリズムが開発された。これによって、掌紋の画質が貧弱であっても特徴量が抽出できる。固定長の掌紋特徴量記述子、MinutiaCode、が利用され、各特長量の周囲の特異な情報を記述し、掌紋のマッチングには位置あわせに基づくアルゴリズムが利用された。2種類の部分掌紋(150個の生体から部分掌紋の取得と、100個の潜在画像)が10200個の背景画像データベースを持つ完全な掌紋画像とマッチングされ、提案システムがテストされた。生体から得られた画像と、潜在画像を対象にした1位の認識率はそれぞれ、78.7%と69%であった。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オンラインによる署名照合と認識:記号表現に基づく手法
Online Signature Verification and Recognition: An Approach Based on Symbolic Representation

D.S. Guru, H.N. Prakash

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 6, pp. 1059-1073 , 6 2009

Keywords: On-line signature verification, On-line signature recognition, Symbolic features, Interval valued features, Writer dependent threshold

本論文では、区間値を有する記号特徴による新規なオンライン署名を、記号特徴量ベクトルの区間値によって表現するシステムを提案する。更に、記号表現によって署名を照合し、認識する方法を提案する。我々は筆者に依存した閾値の概念を利用し、特徴に依存した閾値という概念を利用することで等価誤認率(本人を他人と見なす率と、他人を本人と見なす率を等しくしたときの誤認率)を大幅に低下させられた。本提案手法の能力を示すため、偽の署名から本物を抽出するいくつかの実演が行われた。この提案表現法による署名照合の可能性を調べ、MCYTの2峰性生体認識データベースによる330人分の16500個の署名の署名認識率も調べた。本提案手法の性能を評価するために、さらに、特徴量は固有空間とフィッシャー空間に投影した。他の特徴量の評価システムと異なり、本提案システムは単純で効率的だった。実験の結果、提案手法は、署名照合の最新法を含む、他のいくつかの評価手法を凌駕した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


半教師付きの多重課題学習
Semisupervised Multitask Learning

Qiuhua Liu, Xuejun Liao, Hui Li Carin, Jason R. Stack, Lawrence Carin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 6, pp. 1074-1086 , 6 2009

Keywords: Machine learning, Pattern Recognition

コンテクスト(文脈)は識別を行うときには重要な役割を演ずるとともに、本論文では次の2つの視点から調べる。第1に単一課題中の項目の識別が同時に異なっている、あるいは、以前の識別課題(多数の異なるデータ集合)の中に置かれている状況。この状況は多重課題学習(MTL)と呼ばれ、ここでは、ディリヒレイ過程 (Dirichlet process) と呼ばれる単純化した統計的な方法を利用して実装されている。さらに、多くの識別課題を実行するときには、これから識別されるはずのすべての非識別データに同時にアクセスできる必要があるため、ある一つの特徴ベクトルによるすべての非識別特徴ベクトルのコンテクストにおいて識別される可能性がある;これを半教師付き学習と呼ぶ。本論文において、MTLと半教師付き学習を単一の枠組みに実装化し、それによって2つの文脈情報形式を利用する。このコンセプトを示すため、非現実的な簡単な例による処理結果が示されている。さらに、このアルゴリズムは3つの現実のデータ集合にも適用された。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


心理的画像から画像カテゴリーを探索するための統計的枠組み
A Statistical Framework for Image Category Search from a Mental Picture

Marin Ferecatu, Donald Geman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 6, pp. 1087-1101 , 6 2009

Keywords: Relevance Feedback, Image Retrieval, Page Zero Problem, Bayesian System, Statistical Learning, Mental Matching

伝統的な画像検索手法には、通常、画像による検索要求する(query)ための最初の画像が必要となる。しかし、大量の非構造化kされたデータベースが対象では、この質問画像をどうやって選ぶかが明瞭ではない。これをゼロページ問題と呼ぶ。我々は、無構造で、意味的注釈の付いてない画像から、関連するフィードバックに基づいて意味的カテゴリーの実例を見つける新規な統計的枠組みを提案する。探索は画像のランダムな抽出から始まる。各、探索セッションにおいて、ユーザーは表示された画像から1枚の画像を選ぶよう要求される。ここで、ユーザーは目標に最も近いと見なされる画像を選ぶ。このマッチングは、精神的心理的なものである。この性能は、ユーザーを満足させる画像を選ぶまでの繰り返し数によって計測される。その時点では、他の事例を表示する標準的な手法を利用することもできる。我々の核心的な新規な提案は大量のデータベースを計量できるベイズ的定式化である。この鍵となる2つの要素は、ユーザーが似ていると主観的に知覚する応答モデルと、情報の流れを最大化する表示アルゴリズムである。現実のユーザーと、2万枚、および、6万枚の2種類の画像データベースによる実験の結果、探索の効率性が示された。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


連続変動推定によるテンソルに基づくAAMロバストな顔認識への応用
Tensor-Based AAM with Continuous Variation Estimation: Application to Variation-Robust Face Recognition

Hyung-Soo Lee, Daijin Kim

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 6, pp. 1102-1116 , 6 2009

Keywords: Tensor Algebra, Multilinear Analysis, Active Appearance Model, Least Square Estimation, Indirect AAM Feature Transformation, Vriation-Robust Face Recognition

能動的外観モデル(AAM)は、非剛体のオブジェクトを効率的に表現できる有名なモデルである。しかし、フィッティングさせた結果は、入力した画像が、固定形状や外観モデルの学習データから変動するとき、しばしば不満足な結果となる。よりロバストなAAMフィッティングを達成するため、テンソルに基づくAAMを提案し、画像テンソルとモデルテンソルから成るテンソル代数の枠組みを持った、多様な対象物、姿勢、表情、照明を扱うことを可能にしよう。画像テンソルは、2つの異なる変動推測手法によって、入力画像の姿勢、表情や照明を推測する。その2つとは、離散的変動推定と連続変動推定の2つである。モデルテンソルは、推測された画像変動から変動量に特異的なAAM底ベクトルを生成し、これによってもっと正確なフィッティング結果をもたらす。このテンソルに基づくAAMの有用性を評価するため、テンソルに基づくAAMフィッティング結果を利用した変動に強い顔認識を行った。そのため、間接的なAAM特徴量変換を提案する。連続的変動推定によるテンソルに基づくAAMは、実験の結果、離散的な変動推定や伝統的なAAMを平均フィッティング誤りや顔認識率において凌駕した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率密度に基づく3D検索モデルを利用した形状記述子
3D Model Retrieval Using Probability Density-Based Shape Descriptors

Ceyhun Burak Akgul, Bulent Sankur, Yucel Yemez, Francis Schmitt

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 6, pp. 1117-1133 , 6 2009

Keywords: Shape, Nonparametric statistics, Retrieval models, Curve, surface, solid, and object representations, Feature representation, Invariants, Feature evaluation and selection

完全な3Dオブジェクトモデルを、局所形状の性質の確率的生成記述による内容に基づく検索法について述べる。ここに提案する形状記述の枠組みは、3Dオブジェクトを局所的な表面の特徴をサンプリングされた多変量の確率密度関数によって特徴づける。この密度による記述子は、高速ガウス変換と組になって、カーネル密度推定(KDE)によって効率的に計算される。ノンパラメトリックなKDE法は多様な形状と記述子集合を高い信頼性で、しかも、小さな形状の変動やメッシュの解像度の影響をあまり受けないで特徴付けることが可能である。密度に基づく特徴づけによって形状マッチングの段階において普遍性を保障するために使用することができる。いくつかの3Dデータベースによる広範な検索実験によって証明されたように、この枠組みは広範で多様な形状カテゴリーの形状集合に対して、最良の識別を示した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


五線認識の確かな足取り
Staff Detection with Stable Paths

Jaime dos Santos Cardoso, Artur Capela, Ana Rebelo, Carlos Guedes, Joaquim Pinto da Costa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 6, pp. 736-741 , 6 2009

Keywords: optical character recognition, document image processing, image analysis, optical music recognition

過去になされた音楽作品の保存のためにはそのデジタル化と機械に読める形式への変換が必要となる。で書きの楽譜をコンピュータで処理することは、理想からは程遠い。その中でしなければならない基本的なことは五線の認識である。我々は安定な経路から、楽譜の五線を自動的に検出する汎用的で知識不要の手法を研究した。湾曲や不連続性や傾斜の影響を受ける線がロバストに検出される。実験から、本提案手法は一貫して過去の確立されていたアルゴリズムを凌駕した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


形状に基づく集合体:識別境界の構造的特徴づけに向けて
Geometry-Based Ensembles: Toward a Structural Characterization of the Classification Boundary

Oriol Pujol, David Masip

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 6, pp. 71140-1146 , 6 2009

Keywords: Machine learning, Computer vision

本論文は、一つずつ線形境界を滑らかに加えるモデルによって、非線形な判別境界を近似する新規な2値判別学習法を紹介する。判別境界は境界点列—ある種のロバスト性のもとに最適境界と見なせる点列—によって形状が決定される。これらの点列に基づいて、局所的にロバストな線形識別器の集合が、Tikhonov 正則最適化の手続きによって定義され集められ、最終的にラムダ平滑決定則が作られる。その結果、強力な形状表現手段による、かつ、非線形的振る舞いを有する簡単でロバストな識別器が得られる。この手法の単純さから、オンライン学習や、線形計算複雑度を有する大規模学習、並列化のような、今日では困難な機械学習の課題に拡大して適用することが出来る。この手法をUCIデータベースに適用して評価した。最後に、本手法をオンラインで大規模問題と、次の6つの実生活のコンピュータビジョンとパターン認識問題に適用した:性別認識、血管内超音波組織識別、車両速度制限標識の認識、シャーガス病の病状判定、音符記号検出、3D加速度計データによる動作認識。この結果は有望であり、本論文は将来更に注目を集めるに値する一連の研究に道を開くものとなる。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


コードデータによる、超高速の円、楕円境界へのフィッティング
Very Fast Best-Fit Circular and Elliptical Boundaries by Chord Data

D. Shane Barwick

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 6, pp. 1147-1152 , 6 2009

Keywords: Segmentation, Edge and feature detection, Least squares methods, Shape

多くのマシンビジョンの課題は、オブジェクトを類別する間、円や楕円で十分近似される必要がある。計算効率の観点から、実時間処理が求められているとき、円や楕円でノイズの多い画をフィッティングする判定基準として最小二乗法や代数的方法が良く使われる。これらの手法は偏った推定をしやすく、はずれ値の影響を受けやすい。本論文では、平行コード長の2次多項式による間接的な形状フィッティングを利用した実時間最小二乗法を提案する。ここで言うコード(chord)とは、2点間の線分であり、楕円では2本の平行な線分対が存在する性質を利用している。このアルゴリズムは代数的な手法に比べ計算効率が良く、はずれ値へのロバスト性も優れている。実験結果は、偏りのある誤差への影響も少ないことを示している。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.31, No.7


識別に基づくパラメトリックとノンパラメトリックな識別器のハイブリッド化
Classification Based on Hybridization of Parametric and Nonparametric Classifiers

Probal Chaudhuri, Anil K. Ghosh, Hannu Oja,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 7, pp. 1153-1164 , 7 2009

Keywords: Bayes risk, bandwidth, kernel density estimation, LDA, misclassification rate, multiscale smoothing, nearest neighbor, QDA.

パラメトリックなクラス別け(識別)には、特定のサンプルの頻度密度モデル(すなわちガ ウス分布密度の場合は、線形判別と2次判別分析)を仮定するが、このモデルが適正な場合 はうまく行く。このパラメターモデルが1,2箇所成り立たないと、識別器としてはお粗末な ものになる。他方、ノンパラメトリックな識別器(たとえば、最近傍法やカーネル法)では 、もっと柔軟性があり、パラメトリックモデルを仮定する必要はない。しかし、学習サンプ ル数が少ないとき、これら識別器の統計的な不安定性によって、識別効率が落ちる可能性が ある。しかし、ノンパラメトリックな手法は、サンプル数分布密度にパラメトリックな構造 仮説は用いない。したがって、さらに追加的にサンプル数密度情報があったとしても、この 情報をノンパラメトリックな識別ルールの変更に役立てることはしない。本論文は、パラメ トリックやノンパラメトリックな手法において、これらの限界を克服することが目的であり 、これらの特徴を組み合わせてハイブリッドな識別手法を開発する。これらのハイブリッド 判別分析ツール効率を調べるために、シミュレーションデータの例やベンチマークデータを 利用した。適当な規則性条件を与えることで、これらの誤識別率が漸近的に変化する結果が 得られた。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


改良されたHMM法による手書きアラビア文字認識のための傾斜枠を組み合わせた識別器
Combining Slanted-Frame Classifiers for Improved HMM-Based Arabic Handwriting Recognition

Ramy Al-Hajj Mohamad, Laurence Likforman-Sulem, Chafic Mokbel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 7, pp. 1165-1177 , 7 2009

Keywords: Arabic handwriting, word recognition, feature extraction, IFN/ENIT database, hidden Markov models, HMM, neural network, multilayer perceptron, classifier combination

本研究における課題は、手書きアラビア文字の都市名のオフライン認識である。都市名は、 約1000個から成る集合に属するとする。最新であるが古典的モデルの右から左へと進む窓を スライドしながら認識する隠れマルコフモデル(HMM)に基づく認識器(参照用)が開発された。 このとく特徴量集合は、ベースラインと独立なものも、ベースラインに依存するものも、両 方存在する。この認識器によるエラー解析によると、その主な原因は文字の傾き、オーバー ラップ、発音記号の位置ずれなどであった。本論文では、これらの課題に挑戦することを提 案する。我々の手法は3つの均一的なHMMに基づく識別器の組み合わせを利用する。すべての 識別器は参照用の識別器と同じトポロジーを持っており、異なるのは平行移動する窓の方位 だけである。決定段階においては3つの組み合わせ戦略を比較した。アラビアチュニジア (Arabic Tunisian)都市名データベースIFN/ENITによるベンチマークの結果は、正解認識率90 %以上で、ニューラルネットによる組み合わせ手法の優位性が実証された。また、本結果は 、複数の識別器の組み合わせは、単一の識別器による傾斜を補正した文字画像データの認識 よりも優れており、方位角度が多様な画像にもロバストに対応できた。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


4分木中の近傍探索のための定時間演算アルゴリズム
A Constant-Time Algorithm for Finding Neighbors in Quadtrees

Kunio Aizawa, Shojiro Tanaka

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 7, pp. 1178-1183 , 7 2009

Keywords: Image processing, quadtrees, linear quadtrees, neighbor finding

4分木とか、線形4分木は、画像サイズが{2のr乗}×{2のr乗}の正方形画像を表現する、良 く知られた階層的データ構造方法である。特定の葉ノードに隣接する近傍を見つけることは 、4分木のデータ構造を操作する多くのアルゴリズムにおいて基本的演算である。この4分 木において、近傍を見つけるには最悪O(r)の演算時間を要する。ここに、rは与えられた4分 木の解像度、あるいは、高さである。Schrackは、線形4分木において等しいサイズの近傍を 見つける等時的アルゴリズムを提案した。彼のアルゴリズムでは等サイズ近傍の場所コード を計算する;しかし、これが存在するか否かは判らない。存否を保証するためには場所コー ドをチェックする更なる計算が必要となるが、それには通常O(r)の計算時間が必要となる。 本論文では4分木中のある与えられた葉ノードの近傍を探索する新規なアルゴリズムを提案 するが、これに必要な計算時間は最悪の場合でたったO(1)(つまり一定値)である。更に、本 アルゴリズムは近傍の存否を関知しない。したがって、余計なチェックは不要である。本ア ルゴリズムは4分木に基づくほとんどすべての演算時間を大幅に減少させる。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルコフ確率場を使った低品質手書き文書の前処理
Preprocessing of Low-Quality Handwritten Documents Using Markov Random Fields

Huaigu Cao, Venu Govindaraju

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 7, pp. 1184-1194 , 7 2009

Keywords: Markov random field, image segmentation, document analysis, handwriting recognition

本論文は低品質の手書き文書の前処理のための統計的手法を紹介するが、これは2値化や定 形線枠の除去にも有効である。低品質画像はマルコフ確率場(MRF)でモデル化されるが、隠れ 層の事前確率は高品質2値画像の学習から得られ、観測確率密度は入力画像の中間調ヒスト グラムからその場学習(learned on-the-fly)する。我々はMRFモデルを改良し、画像中にある 予め印刷してある罫線を除去した。処理効率を上げるために、我々はMRFのパッチに基づく位 相と信頼度伝播法(Belief Propagation (BP))を利用した。更に処理速度を上げるために、 MRFを解きながら探索空間中の非現実的な解を枝刈りした。2つの低品質手書き画像に適用し た実験結果は、以前の手法に比べ精度が増した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


コンテクストを認識した視覚追跡
Context-Aware Visual Tracking

Ming Yang, Ying Wu, Gang Hua

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 7, pp. 1195-1209 , 7 2009

Keywords: Computer vision, visual object tracking, context aware, collaborative tracking, data mining, robust fusion, belief inconsistency

多くの追跡問題が現実に直面する根本的ジレンマは環境に対する制約条件が無く、膨大な不 確定要素があることである:追跡は計算上の効率性が求められ、しかも、隠蔽が生じたとき 、背景が複雑であっても追跡対象を正しく追従しているか否かの確認は求められる。この課 題に対する良い解が無いため、多くの従来手法は、洗練された観測モデルの利用のため、有 効だが計算負荷が大きかったり、効率的だが誤報を出し易かった。これは長期間のロバスト な追跡に対する大きな挑戦となっている。本論文は、追跡シーンのコンテクスト(前後関係) を考慮することによって、このジレンマに対する新規な解を提供する。特に、追跡システム 中に補助オブジェクトの組を埋め込み、これがデータマイニング手法を利用して自動的にビ デオからその場で発見されるようにした。この補助オブジェクトには3つの特性がある:1) 標的といつもいっしょに存在し、2)標的と相関を保った動き、3)追跡が容易。標的のコン テキストとしての補助オブジェクトに関しては、これら補助オブジェクトの協調的な追跡に よって、効率的計算だけでなく強力な検証機能も併せ持つ。我々の大規模な実験によれば、 実世界の困難なテスト課題に対して、すばらしい実績を示した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


特徴量と外観の融合によって実現した高速2D形状復元
A Fast 2D Shape Recovery Approach by Fusing Features and Appearance

Jianke Zhu, Michael R. Lyu, Thomas S. Huang,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 7, pp. 1210-1224 , 7 2009

Keywords: Image processing and computer vision, nonrigid detection, real-time deformable registration, nonrigid augmented reality, medical image registration

本論文では、非剛体の形状復元問題を解くため、外観情報と局所的特徴量の両方の利点を利 用する融合的手法を提案する。我々の新規な発見は2つある。第1に、特徴量に基づく非剛 体表面の検出問題を新規な漸進的有限ニュートン最適化法を提案するが、これは一組の線形 方程式を解く問題に帰する。その鍵となるのは非剛体表面の検出を、与えられた観測条件に おいて閉形式の解を有する非制約的2次最適問題として解くことである。第2に、テンプレ ートの画像を小さな3角形のパッチとして近似し、変形を2次微分可能なメッシュ頂点とし ての制約条件で、変形可能なLucas-Kanadeアルゴリズムを提案することである。我々は、疎 な規則的最小二乗法問題として定式化するが、これによって計算コストとメモリーを削減す ることができる。逆構成アルゴリズムによって効率的に最適化問題を解くことができる。こ れを多様な環境について徹底的な評価実験を行い、その有望な結果から、提案アルゴリズム が効率的で効果的であることが示された。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パターン変換多様体間の最小距離:アルゴリズムと応用
Minimum Distance between Pattern Transformation Manifolds: Algorithm and Applications

Effrosyni Kokiopoulou, Pascal Frossard

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 7, pp. 1225-1238 , 7 2009

Keywords: Transformation invariance, pattern manifolds, sparse approximations

パターン認識において変換不変量は重要な性質であり、そのため異なる観測量が同じオブジ ェクトとして同一ラベルを与えられる。本論文は、注目パターンによって張られる変換多様 体間の最小距離として表現される変換不変な距離尺度に着目する。これらの多様体は通常は 非線形であり、多様体距離の演算は非凸最適化問題となる。我々は注目パターンを、冗長で 構造化された底から抽出された、少数の幾何関数の線形の組み合わせとして表現することを 提案する。パターンを変換することによってその構成要素の変換に帰着する。もし、変換が 併進、回転、均質な拡大縮小に制限されている場合、このようなパターンの表現は変換パラ メータに対して多様体方程式の閉形式表現となる。多様体距離計算は、その結果、目的関数 が凸関数の差(DC)として表現される最小値問題として定式化される。この興味ある性質によ って、グローバルに収束可能なDCプログラミング解法によって最適解問題を解くことに帰着 する。この手法がグローバル最適解を見つけることが出来ることを実験的に示し、準最適解 を得る既存解法を凌駕することを示す。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


指紋画像中の特異点を検出する新規なアルゴリズム
A Novel Algorithm for Detecting Singular Points from Fingerprint Images

Jie Zhou, Fanglin Chen, Jinwei Gu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 7, pp. 1239-1250 , 7 2009

Keywords: Singular points, topological structure, Poincare Index, orientation field

指紋解析は画像中から特異点の位置とパターンを検出することが基本である。これらの特異 点(コアやデルタ)は、局所的なリッジパターンを表現しているだけでなく、位相的構造(すな わち指紋のタイプ)を決定し、大筋で方向場に影響を与えている。本論文では、特異点検出の 新規なアルゴリズムを提案する。従来のポアンカレ指標法によって初期の検出の後は、いわ ゆるDORIC特徴を利用して擬似的な特異点を除去する。続いて、複数の特異点を適宜選択し、 これによって再構築されるモデル方向場と、元の方向場との差が最小になるように構築され る。コアとデルタの関係は最終的に特異点を決定するための全体的な制御点として利用され る。実験の結果は、このアルゴリズムが高精度でロバストであることを示しており、他の競 合手法に比べ、優れた結果を示した。本提案の検出アルゴリズムは、流体の流れパターンな どのような、より一般的な2Dの方位パターンにも利用可能である。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


位置同定とマッピングの同時処理のためのO(N2)計算量の平方根無香カルマンフィルター
An O(N2) Square Root Unscented Kalman Filter for Visual Simultaneous Localization and Mapping

Steven A. Holmes, Georg Klein, David W. Murray

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 7, pp. 1251-1263 , 7 2009

Keywords: Structure from motion, simultaneous localization and mapping, unscented Kalman filter

本論文は、一台のカメラによる実時間で位置同定とマッピングを実行するための、平方根無 香カルマンフィルター法(Square Root Unscented Kalman Filter (SRUKF))の開発に関するも のである。従来の無香カルマンフィルター法(UKF)は、同時位置同定とマッピング(SLAM)のた めに開発され、広く利用されている拡張カルマンフィルター(EKF)に線形性を導入した改良版 である。しかし、アルゴリズムの計算量削減は成されてなかったため、状態長に対して演算 量はO(N^{3})であり、EKFがO(N^{2})であるのに比べると、非現実的なほど少数の画像点を扱 う以外、ビデオ速度での用途には向かなかった。ここでSRUKF法は、UKFと同じ結果を、SLAM での状態推定をO(N^{2})の計算量で実現できる別解を与えることを示す。本論文は生ビデオ の実時間実験での結果を示す。合成ビデオ画像による実験でもSRUKFは定常的にEKFより優れ ているが、大きな画像に対する計算コスト全体はEKFより一桁程度大きくなる。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


条件付き確率場に基づく閾値モデルを導入した手話要素の認識
Sign Language Spotting with a Threshold Model Based on Conditional Random Fields

Hee-Deok Yang, Stan Sclaroff, Seong-Whan Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 7, pp. 1264-1277 , 7 2009

Keywords: Sign language recognition, sign language spotting, conditional random field, threshold model

手話の言語要素を同定することは、手話の語彙の中から、サイン(ジェスチャー)を検出し認 識する課題である。手話言語におけるサインの検出の難しさは、ジェスチャーの表現が動き だけでなく見かけ上も変動することである。ジェスチャーは、連続するジェスチャー内に出 てくるが、語彙を形成するサインや、未知語、挿入語を含む、サインに対応しない非サイン パターンの間の過渡的なジェスチャーの動きとして存在する。本論文では、条件付確率場 (CRF)に新規な閾値モデルの設計法を加えたモデルを提案する。これは、語彙中のサインと非 サインを識別する適応的な閾値を設定するものである。見かけによる手話検証法である短い サイン検出器と、サインの分離が不完全な付随サイン推論法を含めて改良を施し、手話の切 り出し精度を向上した。実験では、我々のシステムは連続した手話中から87.0%の精度でサ インを抽出し、孤立したデータから93.5%の精度で認識したが、従来の閾値モデルを用いない CRFでは、73.5%、短サイン検出法、付随サイン推論法、手の見かけによる検証法では85.4%、 であった。また、誤認識率は、連続データからは15.0%、孤立データからは6.4%、従来法の CRFによる連続データでは76.2%、孤立データからは14.5%であった。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


流体の流速場追跡のための確率論的フィルタリング法
A Stochastic Filtering Technique for Fluid Flow Velocity Fields Tracking

Anne Cuzol, Etienne Memin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 7, pp. 1278-1293 , 7 2009

Keywords: Motion estimation, tracking, nonlinear stochastic filtering, fluid flows

本論文では流速場の時間的追跡のための手法を紹介する。我々の提案手法は逐次ベイズフィ ルタリング法の枠組みとして定式化されている。このフィルタリングモデルはナビエ・スト ークスの公式の渦・流速の確率論的定式から得られたItoの拡散プロセスと画像系列から抽出 された離散的測定結果を一体化したものである。適当な次元で状態空間を扱うために、動き 場は流速場の離散的渦マップから得られる適応的底関数の組によって表現されている。この 結果得られた非線形フィルタリング問題は、連続時間の中におけるパーティクルフィルター アルゴリズムによって解くことが出来る。動的システム理論によって、このフィルタリング 法に適応的な次元の削減法を適用した。この追跡法を合成動画と実測画像へ適用し、その効 率性が実証された。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


情報損失最小化による量子化コードブックの教師付き学習法
Supervised Learning of Quantizer Codebooks by Information Loss Minimization

JSvetlana Lazebnik, Maxim Raginsky

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 7, pp. 1294-1309 , 7 2009

Keywords: Pattern recognition, information theory, quantization, clustering, computer vision, scene analysis, segmentation

本論文は、与えられた連続特徴ベクトルとクラスのラベルの事後確率分布について、両者を 同時に経験的情報損失を最小化することによって、十分な近似ができる量子化法を提案する 。簡単に言えば、量子化された表現は特徴ベクトルを正しくクラス分けするための十分な情 報量を保持している。我々は、これに代わる最小化法を導き、これによって、ユークリッド 特徴空間と事後クラス分布の単体中で、コードブックを同時に学習する。これによって得ら れた量子化器によって、学習サンプル以外のデータのコード化をしたり、事後クラス分布を 推定したり、ロスの無いコード化のためのすばらしい解釈が可能となる。本提案法は人工的 データと実データの両方で、その妥当性が確認され、多種の特徴からなる画像の視覚語彙識 別と、画像分割のための学習、という2つの異なる用途に応用された。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スムーズな表面の3D形状の復元:自由視点からの画像合成
3D Shape Recovery of Smooth Surfaces: Dropping the Fixed-Viewpoint Assumption

Yael Moses, Ilan Shimshoni

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 7, pp. 1310-1324 , 7 2009

Keywords: 3D shape reconstruction, featureless objects

3つ以上の光源に照らされた特徴の無い平滑な3D形状を復元するための新規な方法を提示す る。本方法は、制約の無い透視図を扱える点、および、制約の無い照明方向の画像を扱える 点で、従来と比べ新規である。このような少数の画像から画像間の対応を取れると言う手法 は、他に無い。我々の手法は幾何学的、かつ、測光的情報を一体化することで、高密度の画 像間の相関を取り、精度よく3D画像を計算できる。一点からスタートする一筆書きの経路と 、局所的計算を利用するのみである。本方式は、多くの画像を使って、隠蔽された輪郭画像 を復元して最適状態を求める従来の方法とは、良い対比をなす。本手法の結果は、このよう なプロセスを初期化するためにも役に立つ。固定視点の特別な場合として、本手法は新規な 透視測光ステレオアルゴリズムとなる。それにもかかわらず、多視点の多数画像のセットア ップ、自己隠蔽、隠蔽境界に近い領域は、ずっと良く処理されているし、実験結果から見る と、本手法は測

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


モデルに基づく逐次画像系列のクラスタリングのための新規な距離尺度
A New Distance Measure for Model-Based Sequence Clustering

Dario Garcia-Garcia, Emilio Parrado Hernandez, Fernando Diaz-de Maria

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 7, pp. 1325-1331 , 7 2009

Keywords: Clustering, sequential data, similarity measures

逐次画像系列のクラスタリングのために、モデルに基づく従来の距離をレビューし、 Kullback-Leibler分散(divergence)に基づく新規な距離を提案する。この距離はスペクトル クラスタリングと組み合わせたとき、特に有用であることが示される。現実の用途で性能の 向上が見られ、モデル選択法も提案された。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般指されたリスク範囲:識別のための観測の選択
Generalized Risk Zone: Selecting Observations for Classification

R.T. Peres, C.E. Pedreira

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 7, pp. 1331-1337 , 7 2009

Keywords: Classification, neural networks, observations selection, risk zone, support vector machine.

本論文では、リスク領域を拡張した一般化リスク帯(Generalized Risk Zone)というコンセプ トを案出する。一般化リスク帯とは、サンプル集合中から鍵となる観測例を選択するモデル に依存しない枠組みである。これに属する実験によれば、全サンプルを利用した識別性能と ほぼ同程度か、場合によっては、これより優れている。この拡張のための主要な道具はコー シー・シュワルツ分散(Cauchy-Schwartz divergence)であり、確率分布間の差の尺度として 利用されている。確率分布関数の推定に関する問題点を克服するために、情報理論的学習か ら得られるアイデアを利用した。これによって、入手できる観測値のみから得られる計算が なされた。本提案手法は、学習ベクトル量子化法、フィードフォワード・ニューラルネット 、サポートベクトルマシン、最近傍法とともに利用した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自動検査システムのための新規な特徴選択手法
A Novel Feature Selection Methodology for Automated Inspection Systems

Hugo C. Garcia, Jesus Rene Villalobos, Rong Pan, George C. Runger,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 7, pp. 1338-1344 , 7 2009

Keywords: Feature selection, misclassification error rate, quadratic discriminant function.

本論文は新規な特徴量選択手法である。本手法は段階的な変数選択手続きから成っているが 、Wilks' Lambdaのような伝統的な判別尺度を用いるのではなく、新規な特徴量の導入の際に 、識別エラーの推定値をメリット尺度として求める。期待される識別エラー率は、構築され た確率変数の関数の密度として得られる。この確率変数は2次判別関数の推定値の条件付分 布の確率的表現である。本提案手法によって、従来のシミュレーションや、相互検証法に比 べ、識別エラーの計算時間が顕著に減少した。本提案手法の1つの特長は、特徴量が選ばれ た時点で、推定識別エラーが直接計算できることで、そのために、検証・識別アルゴリズム 内の新規な特徴量が選ばれるたびに、その特徴量の評価できることである。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.31, No.8


部分最小2乗法に基づく効率的な疎なカーネル特徴量抽出法
Efficient Sparse Kernel Feature Extraction Based on Partial Least Squares

Charanpal Dhanjal, Steve R. Gunn, John Shawe-Taylor,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 8, pp. 1347-1361 , 8 2009

Keywords: Machine learning, kernel methods, feature extraction, partial least squares

多くの機械学習の課題において、学習用データ中に不適切な特徴量があるとすれば大きな問題となる。これに 対する一つの解決法は適切な特徴を抽出することで、しばしば推論アルゴリズムによって特徴を選択すること が多い。ここに部分最小2乗法に基づく一般的な特徴量抽出の枠組みを定式化するが、この中で、投影計算に必 要な投影方向はユーザーが選択できるようになっている。この枠組みによって多数の既存の結果を引き出すこ とができる上に、更にいくつかの人気のある特徴抽出法に対する洞察が可能となる。この枠組みから2つの新 規で疎なカーネル特徴量抽出法を導くことができる:疎な最大化配列法(Sparse Maximal Alignment (SMA))お よび疎な最大化共分散法(Sparse Maximal Covariance (SMC))と呼ばれる方法である。これらの手法の鍵となる 利点は、実装化の容易性と、例題の数に比例した学習時間である。さらに、出力次元数をkとしたときに、新規 なテストとしてk個のカーネル評価器を使って見積もることができる。いくつかの実世界のデータ集合による計 算結果によれば、SMA と SMCが予測する抽出特徴量は、他の有力な特徴抽出法と同程度であることを示してい る。更に、テキスト検索と顔検出データ集合において、本方法は、サポートベクトルマシンといっしょに利用 した場合、もとの特徴量と同等の性能を発揮した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ウォーターシェッド(分水嶺)カット法:最小スパンフォレスト法と雨滴原理
Watershed Cuts: Minimum Spanning Forests and the Drop of Water Principle

Jean Cousty, Gilles Bertrand, Laurent Najman, Michel Couprie,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 8, pp. 1362-1374 , 8 2009

Keywords: Watershed, minimum spanning forest, minimum spanning tree, graph, mathematical morphology, image segmentation

エッジ重み付きグラフにおいてwatershedを研究した。ここで地表面を流れ落ちる水滴にアイデアを発する直感的なwatershed(分水嶺)カット法を定義する。まず最初にこれらのwatershedの整合性を確立する:これと同等な集水盆地(catchment basins)を定義するが、そのためには最大勾配を有するか、あるいは、集水盆地を分割する分割線(雨滴原理による)を利用する。次に、同等の定理によって、最小スパン・フォレスト(minimum spanning forests)の概念において最適であることを証明する。その後、これを計算するための時間に比例するアルゴリズムを示す。我々の知る限り、類似の特性は他の枠組みでも知られておらず、ここに提案するアルゴリズムは、理論的にも実用的にも最良の効率を示す。最後に、ここで定義された概念によって画像セグメンテーションへの応用が示され、その結果、本提案手法はテスト画像においてwatershedに基づくセグメンテーションの改良法であるとの結論となる。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


情景の等垂方向画像クラスタリングのための見かけ上の変動
Appearance Derivatives for Isonormal Clustering of Scenes

Sanjeev J. Koppal, Srinivasa G. Narasimhan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 8, pp. 1375-1385 , 8 2009

Keywords: Appearance modeling, physics-based vision, scene reconstruction, active illumination, material invariants, relighting

「見かけ画像によるクラスタリング」と呼ばれる新規な手法を提案する。この手法の顕著な結果は、対象物の形状や物質や照明などが全部わからなくても、表面に垂直な方向からの視点に基づいてクラスター化されることである。これを実行するために、情景が滑らかに動く遠方の光源から照明される画像系列を解析する。このような状態では各画素の輝度の測定は「連続的に見えるプロファイル」を呈する。光源の経路が非構造的な軌跡をとる場合(つまり、光源を手でゆらゆら滑らかに動かしながら)、観察されるプロファイルが極値をとる場所は、対象物表面に垂直な情景視点の有力な手掛かりとなる。この観測に基づき、見かけのプロファイルの簡単な変換と距離尺度が導かれ、これらをいっしょに利用して、情景の等垂クラスター(isonormal clusters)が教師無しで得られる。本手法によってTorrance-Sparrow and Oren-Nayar analytic BRDF、および、MERLデータベースから得られた25種の材質から成る実験によって、我々のアルゴリズムが優れていることを示す。本手法が優れていることはCURETの45の例からも実証され、人工的な芝やセラミックタイルだけでなく、サテンやビロードのような実在材質のテクスチャーの情景にも適用された。我々のアルゴリズムを、複雑な形状や物質が存在する室内や屋外の情景に応用した結果も示す。一つの応用事例として、照明整合性のあるテクスチャー変換のために、等垂クラスターが使われた。われわれのアルゴリズムは単純であり、データ収集のために複雑な照明系を組み立てる必要はない。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


アルゴリズム的情報理論を使った生物学的画像系列の変化の自動的収集
Automatic Summarization of Changes in Biological Image Sequences Using Algorithmic Information Theory

Andrew R. Cohen, Christopher S. Bjornsson, Sally Temple, Gary Banker, Badrinath Roysam

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 8, pp. 1386-1403 , 8 2009

Keywords: Image sequence analysis, algorithmic information theory, algorithmic statistics, information distance, gap statistic, clustering

画像系列中から意味のある変化を見つけこれをオブジェクト別にまとめるという、アルゴリズム的情報理論に基づく手法を紹介する。オブジェクトの抽出と追跡のデータは属性つき追跡グラフ(ATG)として表現される。オブジェクト状態の時間経路は、適応的情報距離尺度を利用して比較されるが、このとき閉形式多次元量子化法を利用する。このとき有意義な要約(まとめ)の概念はアルゴリズム的統計の見地からランダム性が欠如している状態を推測するためのギャップ統計を利用して把握する。要約したものはこのクラスタリングした結果と、ギャップ統計量を最大化した特徴量部分集合である。この手法は4種の生物の画像データに応用し、有用性が確認された:1) 2つの成長速度が異なる細胞集団を含む人工的データ集合に適用され、2つの個体集合を正しく同定し、これらを分ける23個の特徴量の中から1つの特徴量を同定した、2) 3種類の人工的神経装置が脳組織に異なる3つの速度で挿入される59種類の映画に適用され、組織の歪みに影響する主要因子として、正しく挿入速度を検出した。3) 培養された前駆細胞の映画に応用されたとき、目印のための染料を使わないで、前駆細胞から神経細胞を正しく認識した。4) 培養された神経細胞の軸索を指定している最中の細胞間の分子輸送を解析するとき、に軸索同定中にキネシンの役割を自動的確認した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


古代ギリシャの碑文の自動的筆者同定
Automatic Writer Identification of Ancient Greek Inscriptions

Michail Panagopoulos, Constantin Papaodysseus, Panayiotis Rousopoulos, Dimitra Dafi, Stephen Tracy

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 8, pp. 1404-1414 , 8 2009

Keywords: Writer identification, handwriting classification, ancient Greek inscription classification, handwriting analysis, archaeology, feature modeling, pattern recognition.

本論文は、古代ギリシャの碑文の刻印者を識別するための新規な手法を紹介する。碑文刻印者の同定は書かれた内容の年代決定には極めて重要であり、歴史学や考古学にとって本質的な重要性を持っている。これを達成するために、刻印された各文字の理想的、あるいは、純真な原型をまず計算する。次に、2つの刻印文字が同一筆者によって刻まれたと言う仮説を拒絶する統計的基準を導入する。このようにして、与えられた刻印文字集合について、多数の刻印者を決定することができた。次に、すべての個々の刻印者に対して、刻印文字集合の属性に対する最尤度を採用した。本手法は24の古代アテネの刻印に応用し、6人の判明している刻印者に割り当て、碑文専門家の意見と同一の結論であった。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オークションのカテゴラリ化とカノニカルなビデオテンソルの相関解析
Canonical Correlation Analysis of Video Volume Tensors for Action Categorization and Detection

Tae-Kyun Kim, Roberto Cipolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 8, pp. 1415-1428 , 8 2009

Keywords: Action categorization, gesture recognition, canonical correlation analysis, tensor, action detection, incremental subspace learning, spatiotemporal pattern classification

本論文は、時空間におけるパターン認識問題を扱っている。本研究の主要目的はアクションビデオ映像をカテゴリー化して適当な表現やマッチング場面を見つけるためである。新規な手法として、カノニカル相関解析法(Canonical Correlation Analysis (CCA))を拡張したビデオ1巻の中の画像類似度を提案するが、これは2セットのベクトルと、2セットの多元データ列(あるいはテンソル)との間で線形関係性を検査する基本的ツールである。提案手法は、従来行われていたような明確に切り出された画像中の動き推定という困難なデータ入力を避け、動きクラス内の変動にロバストな、時空間パターンマッチングという手法に置換えるものである。本提案マッチング手法は、単純な最近傍動作識別法と比較された。さらに、自動的な動作検出法を提案するが、これは入力ビデオ中全体から、与えられたアクションを例として3次元の窓で探索する。この探索速度は、本提案CCAにおける部分空間の動的学習によって向上する。公開されているアクションデータ集合であるKTHと自分で記録した手のジェスチャーデータに対する実験によって、本提案手法が、精度の点で他の最新手法をはるかに凌駕することが示された。我々の手法は計算が単純であり、パラメータの調整は必要ない。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高次元非ガウスデータのクラスタリングのためのハイブリッド特徴抽出法
A Hybrid Feature Extraction Selection Approach for High-Dimensional Non-Gaussian Data Clustering

Sabri Boutemedjet, Nizar Bouguila, Djemel Ziou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 8, pp. 1429-1443 , 8 2009

Keywords: Unsupervised learning, mixture models

本論文は混合した一般化ディリヒレー分布(generalized Dirichlet (GD))の特徴選択と抽出のための教師無し学習法に関する。本手法は、汎用性を失うことなく、独立した非ガウス的特徴量を抽出できる新規な混合モデルを定義する。本提案手法は、データ集合のメッセージ長を最小化することで期待値を最大化するアルゴリズムによって学習する。実験の結果、本結果はオブジェクト画像のカテゴリー化に特長を示した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複雑な工学図面の解釈のための、新規な知識ベースシステム:理論、表現、そして、実装
A Novel Knowledge-Based System for Interpreting Complex Engineering Drawings: Theory, Representation, and Implementation

Tong Lu, Chiew-Lan Tai, Huafei Yang, Shijie Cai

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 8, pp. 1444-1457 , 8 2009

Keywords: Knowledge representation, interpretation, engineering drawings, high-level analysis, graphics recognition

現実の工学図面の内容を、自動的に高度な知識表現に変換する新規なシステムを提案する。本提案手法は基本的には複雑な翻訳プロセスを2つに分解する:知識表現と、知識に基づく解釈に。そのため新規な階層的記述子に基づく知識表現法を提案し、多様な工学的オブジェクトとその複雑な上位の関連を整理する。記述子は拡張Backus Naur形式(EBNF)を利用して定義され、変形や保守が容易になる。関連する工学図面集合を解釈する場合は、知識に基づく解釈システムが知識表現ファイルから最初にEBNF木を構築し、次に、可能性のある工学オブジェクトをEBNF木の中から深さ優先モ−ド探索によって探す。実験の結果と他の翻訳システムと比べ、我々の知識ベースに基づく高度な解釈方法は、複雑な実世界の工学オブジェクトに対して正確でロバストであった。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


対称性、遠近性、遠近性、そして、レベルセットに基づくセグメンテーション
On Symmetry, Perspectivity, and Level-Set-Based Segmentation

Tammy Riklin-Raviv, Nir Sochen, Nahum Kiryati

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 8, pp. 1458-1471 , 8 2009

Keywords: Symmetry, segmentation, level-sets, homography

ここで紹介するのは遠近歪みの存在下で左右対称、または、回転対称のオブジェクトを新規な変数表示する方法である。 オブジェクトの対称軸上の情報と変形変換はセグメンテーション処理に伴う副産物として得られる。鍵となるアイデアは、オブジェクトの別の見え方を提供するために、セグメント化するために画像を反転したり回転させることである。このようなセグメント化された画像を対称片割れ画像と呼ぶ。このような対称片割れ画像や元の画像を平面投影ホモグラフィーによって関連付けさせる。このようなホモグラフィーはオブジェクト対称性を歪ませる未知の対称投影変換によって決定される。提案するセグメンテーション法は徐々に変化するレベルセット法を利用する。オブジェクトの境界抽出には画像の対称性を利用する。対称な片割れ画像は、変化しつつあるレベルセット関数から動的な形状を先駆データ(prior)として提供する。これによってノイズや、複雑図形や、隠蔽や、背景に埋没することであいまいになる境界探索を浮き立たせ明瞭にする。対称的片割れ画像を元のレベルにまで整列させるホモグラフィーが、セグメンテーションと同時に行われる位置あわせ処理によって復元される。大まかな対称性を有するいろいろな画像に対するセグメンテーション画像の有望な結果が示されている。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


監視用途のための情景の動的な確率的モデル化
Probabilistic Modeling of Scene Dynamics for Applications in Visual Surveillance

Imran Saleemi, Khurram Shafique, Mubarak Shah

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 8, pp. 1472-1485 , 8 2009

Keywords: Vision and scene understanding, Markov processes, machine learning, tracking, kernel density estimation, Metropolis-Hastings, Markov Chain Monte Carlo

固定カメラで撮影された画像の動的振る舞いをモデル化し、学習するための新規な手法を提案する。本提案手法は極めて一般性があり、多様な問題を解くために応用できる。情景中のオブジェクトの動きパターンは、時空パラメータ(オブジェクトの位置の間の遷移時間)の非パラメトリックな多変数確率密度関数でモデル化できる。このモデルの学習には教師無しの条件でカーネル密度推定法が利用できる。学習には静止カメラで、時間を延長してオブジェクトを追跡観察して達成される。これによって情景中を動くオブジェクトの振る舞いにおける確率的性質がコード化され、継続的追跡とか異常な動きの検出や活動解析の用途に利用できる。更に、このモデルによって、隠蔽領域とか最も可能性の高い経路とかの、顕著な情景特徴量を把握するのにも利用できる。モデルが一旦学習された後は、情景中の最尤経路を生成したり、前景の検出の改良、オブジェクト対象物の継続的ラベリング、与えられた軌跡表現が観察された動きパターンの異常を判定するためなどに、統一的マルコフ鎖モンテカルロに基づくフレームワークを利用する。この提案手法の妥当性を示す実画像による実験について報告されている。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


期待値最大化アルゴリズムを利用した、オブジェクト認識と画像セグメンテーションの間の相乗効果
Synergy between Object Recognition and Image Segmentation Using the Expectation-Maximization Algorithm

Iasonas Kokkinos, Petros Maragos

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 8, pp. 1486-1501 , 8 2009

Keywords: Image segmentation, object recognition, Expectation Maximization, Active Appearance Models, curve evolution, top--down segmentation, generative models

本研究では、期待値最大化法のフレームワークにおける画像セグメンテーションとオブジェクト認識の相互作用を定式化する。セグメンテーションを観察画像のオブジェクトへの割り当て仮説と見なし、これをEステップと呼ぶ。他方、Mステップとしてオブジェクトモデルを観察画像へフィッティングさせることと見なす。これら2つの課題は交互に実行される結果、同時に画像のセグメント化とオブジェクト再構築がなされる。オブジェクトのモデル化には動的外見モデル法(AAM)を利用し、これによって形状と外見の両方を把握する。Eステップにおいては、AAMの画像への忠実性を利用して観察像とオブジェクトの割り当てが決定される。このため、2つのトップダウンのセグメンテーションアルゴリズムを提案する。第1のアルゴリズムは、画像の過剰セグメンテーションからスタートし、続いて、セグメンテーションにオブジェクトを柔軟に当てはめる。これはEM法の共通の設定である。第2アルゴリズムは曲線を進化させながら、EM法の変分法から導かれた基準を最小化させ、形状事前確率としてAAMを導入する。Mステップでは、セグメンテーション情報に適合したAAMフィッティング方程式を導く。これによって、隠蔽を自動的に処理することができる。実験によって、トップダウン的セグメンテーション結果と異なり、システマティックなオブジェクト検出と、その結果、セグメンテーションと認識を同時に行う利点が明らかになった。。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


統計的ハフ変換
Statistical Hough Transform

Rozenn Dahyot

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 8, pp. 1502-1509 , 8 2009

Keywords: Hough transform, Radon transform, kernel probability density function, uncertainty, line detection

標準的なハフ変換は画像処理において人気のある手法であり従来ヒストグラムによって判定をしていた。高次元空間とか、観測数が少ないとかの場合、そのヒストグラムの密度が小さく、疎であったり、必要なメモリーが大きかった。本論文ではまず最初に、連続的なカーネル推定へと定式化を拡張する。第2に変数間の従属性を十分考慮した場合、推定される密度関数はノイズに対してロバストで、空間座標の原点の選び方の影響をあまり受けない。最後に、ここに提案する新規な統計的枠組みは教師無しであり(必要であればパラメータは自動的に推定される)、柔軟である(事前確率は容易に観察に付け加えられる)。この新規なモデル化によって画像内容をより良くコード化できることを実験的に示す。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所化した成分分析法を利用した形状変動の探査
Exploration of Shape Variation Using Localized Components Analysis

Dan A. Alcantara, Owen Carmichael, Will Harcourt-Smith, Kirstin Sterner, Stephen R. Frost, Rebecca Dutton, Paul Thompson, Eric Delson, Nina Amenta

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 8, pp. 1510-1516 , 8 2009

Keywords: Feature representation, size and shape, life and medical sciences

局所成分分析法(Localized Components Analysis (LoCA))は、オブジェクト集合に対して、空間的に局所化した形状成分を、線形部分空間を利用して表面形状の変動を記述する新規な方法である。従来法に比べLoCAは局所化した成分に特化して最適化することで、局所的表現と簡潔な表現の柔軟性を併せ持った二律背反をとることができるので、局所性の定式化では、対称性のような性質も柔軟に取り込むことができる。本論文は、LoCAが、人間の脳領域やサルの頭蓋などの多様な生物医学試料に対して、性、病状、種、に伴う形状の差を直感的に表現できることを実証した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.31, No.9


生理学条件モニタリングのための要素切り替え線形動的システム
Factorial Switching Linear Dynamical Systems Applied to Physiological Condition Monitoring

John A. Quinn, Makerere University, Kampala Christopher K.I. Williams, University of Edinburgh, Edinburgh Neil McIntosh, University of Edinburgh, Edinburgh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 9, pp. 1537-1551 , September 2009

Keywords: Condition monitoring, switching linear dynamical system, switching Kalman filter, novelty detection, intensive care.

条件モニタリングは、何らかの形で様々なオペレーションモードの間を切り替わる隠れ要素を持つシステムの解析を含むことが多い。ここでの課題は、観測系列が与えられた時、各時点における、切り替えセッティングのフィルタリング分布を推測することである。本稿では、左記問題を扱うための一般的なフレームワークとしての要素切り替え線形動的システムを紹介する。本フレームワークでドメイン知識と学習過程をうまく統合し、モデル化されていないバリエーションを扱うために、新しい要素(“x要素”)を導入する。集中治療を受けている未熟児の条件モニタリング問題に適用することで、このタイプのモデルの柔軟性を示す。乳幼児の健康状態は直接計測することができないが、様々な背景要素と、生理学上の計測信号とノイズの特定のパターンとが関連付けられている。共通要素の明示的知識は既知であり、前記のx要素を用いることで、臨床的には顕著だが未知である新しいパターンをモデル化することができる。実験結果により本研究で開発された方法が典型的な集中治療ユニットモニタリングデータに対して効果的であることが示される。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カメラの放射対称歪み校正
Calibration of Cameras with Radially Symmetric Distortion

Jean-Philippe Tardif, University of Pennsylvania, Philadelphia Peter Sturm, INRIA Grenoble-Rhone-Alpes, France Martin Trudeau, Mercer, Montreal Sebastien Roy, Universite de Montreal, Montreal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 9, pp. 1552-1566 , September 2009

Keywords: Calibration, omnidirectional vision, fisheye, catadioptric camera.

一般的な放射状歪みを持つカメラの、平面に基づいた校正のためのアルゴリズムを示す。このアルゴリズムを用いることで、歪み中心を中心とする円中の画素の投射光束が、光軸(optical axis)に中心をおく正しい視円錐(viewing cone)を構成するような歪み中心と光軸を持つカメラを想定する。全ての視円錐が同じ頂点(光学中心)を持つ場合、このカメラは単一の視点(single viewpoint: SVP)を持つといわれる。これ以外の場合はNSVP(non-single viewpoint)と呼ばれる。このモデルは古典的な放射歪みモデル[5]と、魚眼、及び殆どの中心もしくは非中心反射屈折カメラを包含するものである。本研究におけるカメラ校正は、歪み中心、全ての視円錐の開口角、及びこれらの光心(optical center)の推定からなる。単一もしくは複数の平面上の密対応(dense correspondence)と既知のユークリッド構造の組み合わせにより、完全校正(full calibration)を計算する2つのアプローチを示す。最初のものは視円錐とその間隔領域を校正平面(円錐状領域)とリンクさせる幾何的拘束条件に基づいたものである。第二のアプローチは、ホモグラフィーに基づいた方法である。合成カメラデータ及び多種の実際のカメラから得られたデータを用いた実験により、本アプローチの高い安定性が示される。更にHatley-Kangのアルゴリズム[12]との比較も行い、両者が同等の性能を持つことが示される。ただしこのHartley-Kangアルゴリズムは広範なカメラ構成を扱えるわけではない。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


任意の視点から撮影した隠蔽を含む顔画像領域検出、位置決め、及び性別識別
Detection, Localization, and Sex Classification of Faces from Arbitrary Viewpoints and under Occlusion

Matthew Toews, Harvard Medical School, Boston Tal Arbel, McGill University, Montreal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 9, pp. 1567-1581 , September 2009

Keywords: Scale-invariant feature, viewpoint invariance, probabilistic modeling, visual trait, sex classification, faces, occlusion.

本稿では、任意の視点から撮影した隠蔽を含む顔画像からの、顔の検出、位置決め、そして性別、年齢などの視覚特徴に関する識別のための新しいフレームワークを示す。これら3つのタスクは、局所的なスケール不変特徴から導出された一般オブジェクトクラス外観の視点不変モデルに統合されている。ここでこれらの特徴は、出現頻度、外観、幾何的特徴、そして注目される視覚特徴との関連の意味において確率論的に定量化される。まずオブジェクトクラスに対して外観モデルを学習・構成し、その後、顕在化した視覚特徴としてのモデル特徴を同定するためのベイズ識別器を学習・構成する。このフレームワークは視点の変化や部分隠蔽がある場合などの現実的なシナリオに適用可能である。これは、単一視点から撮影した、縦長且つ整列済みの、背景散乱を持たないデータを仮定する他の手法には無い特徴である。カラーのFERETデータベースを用い、任意の視点から撮影された顔画像の性別識別における実験を行った結果、16.3%の等誤り率(equal error rate)であった。この方法はCMUプロファイルデータベースから取得した散乱した背景中の顔画像に対しても頑健に働くことが示される。幾何情報を持たない単語集合(bag-of-words)モデルとの比較により、我々のフレームワークにより与えられる幾何情報が識別性能を向上させることが示される。サポートベクトルマシンとの比較によりベイズ識別がより良い性能を持つことが示される。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


放射分析上の差異のある画像の両眼マッチングコストの評価
Evaluation of Stereo Matching Costs on Images with Radiometric Differences

Heiko Hirschmuller, Institute of Robotics and Mechatronics, Wessling Daniel Scharstein, Middlebury College, Middlebury

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 9, pp. 1582-1599 , September 2009

Keywords: Stereo, matching cost, performance evaluation, radiometric differences.

両眼対応法(stereo correspondence method)は、画像位置の類似性を計算するためのマッチングコストに基づくものである。受動的両眼立体法(passive binocular stereo method)のための様々なコストの、入力画像の放射分析上の変動に対する非反応性を評価する。画素毎の変動に加え、画像窓毎の変動も考慮する。これには絶対差異(absolute difference)、サンプリング非依存絶対差異(sampling-insensitive absolute difference)、正規化相互相関、そしてこれら指標のゼロ平均版などを含む。また画像に掛けるフィルタ、例えばLoG(Laplacian of Gaussian)、平均、両側背景減法(BilSub: Bilateral background Subtraction)を考慮し、そしてRank、SoftRank、Census、Ordinalなどのノンパラメトリック測量なども考慮にいれる。最後に階層的相互情報量(hierarchical mutual information: HMI)を画素毎のコストとして考慮する。ステレオデータセットを視差の正解データとして用いて、局所的、準大域的、及び大域的ステレオマッチング法と共に用いた場合の上記コストを評価する。上記の正解データは露出及び照明を変化させた撮影例から取得したものである。合成及び実データの両方を利用し、放射分析上の差異がある場合の全てのコストの性能を計測した。この差異には露光差、ビネット差(画像周辺部の減光)、照明変化、及びノイズなどを含む。結論として全てのデータセットと全ての実験を通じて、手法の性能順位は不変であった。上位コストは、BilSub(低度の放射分析上の差異に対して、常に非常に良い性能を発揮する)、HMI(強度の画像ノイズがある画像などの、いくつかの場合において画素毎マッチングコストとして前記のBilSubよりも僅かに良い場合があった。)、Census(全てのコストの中で最高の頑健性と性能を持っている。)であった。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線形近傍伝播及びその応用
Linear Neighborhood Propagation and Its Applications

Jingdong Wang, Microsoft Research Asia, Beijing Fei Wang, Tsinghua University, Beijing Changshui Zhang, Tsinghua University, Beijing Helen C. Shen, The Hong Kong University of Science and Technology, Hong Kong Long Quan, The Hong Kong University of Science and Technology, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 9, pp. 1600-1615 , September 2009

Keywords: Gaussian Markov random fields, linear neighborhood propagation, transductive classification, image segmentation.

本稿では、線形近傍伝播(Linear Neighborhood Propagation)と呼ばれる新しいグラフ理論に基づいた変換的識別アプローチを提案する。基本となるアイディアはデータ点のラベルをその近傍に従って線形予測することである。この方法は二次内部ガウスマルコフ確率場フレームワーク(intrinsic Gaussian Markov random field)として定義できる。この方法による解は、ディリクレ(Dirichlet)境界条件を伴う均質でない近似重調和方程式の解に対応するものである。既存のアプローチと異なり、我々のアプローチでは、対毎のエッジの代わりに、複数のエッジに基づいた方法を導入することで、新しいグラフ構造構築法を与える。また同様に前記の複数エッジに与える重みを推定するための効果的なスキームも与える。我々の知る限り、これらの2つの成果には、準教師付き識別分野における新規性がある。画像分割と変換的識別における実験の結果により、提案手法の効果と効率性を例証する。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二次元散乱点群中の特定形状オブジェクトの探索
Looking for Shapes in Two-Dimensional Cluttered Point Clouds

Anuj Srivastava, Florida State University, Tallahassee Ian H. Jermyn, INRIA (Ariana), France

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 9, pp. 1616-1629 , September 2009

Keywords: Shape classification, clutter model, Fisher-Rao metric, planar shape model, diffeomorphism.

本稿では、点群中のオブジェクト形状のクラスを同定する問題を検証する。これらの点群には、オブジェクト輪郭に沿ったサンプル点、それに対する散乱、および観測ノイズが含まれる。合成による分析(analysis-by-synthesis)アプローチにより訓練データを用いて学習されたモデルを用いることで、上記サンプル点により表現される輪郭の高確率構成をシミュレートし、これにより与えられたテストデータを評価する。このシミュレーションを効率的に行うために、障害変動源の統計モデルを開発した。この障害には、1)クラス内の形状変動、2)連続曲線のサンプリングの変動、3)姿勢及びスケールの変動、4)観測ノイズ、そして5)散乱により生じた点が含まれる。閉じた円弧を有限の点群にサンプリングするときの変動を、単位円の正の微分同相写像により表現する。これらの機能の確率モデルを、これらの二乗根形式とFisher-Rao尺度を用いることで表す。モンテカルロアプローチを用いることで、形状−サンプル空間における結合事前確率(joint prior)から、構成を合成し、尤度関数を用いることでこれと入力データと比較する。合成された構成の平均尤度により、様々なクラスとそれによるベイズ識別の事後確率を推定する。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非ベイズ確率論的フレームワークにおける最適識別器融合
Optimal Classifier Fusion in a Non-Bayesian Probabilistic Framework

Oriol Ramos Terrades, Universitat Automous of Barcelona, Bellaterra Ernest Valveny, Universitat Automous of Barcelona, Bellaterra Salvatore Tabbone, LORIA and University of Nancy2, France

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 9, pp. 1630-1644 , September 2009

Keywords: Classifier fusion, linear combination rules, random variable.

複数の識別器からの出力を組み合わせることは、一般用途の識別器システムの精度を向上させる目的で広く使われてきた。最も一般的なアプローチのいくつかは、ベイズの公式を用いて説明することができる。本稿では非ベイズ確率論的フレームワークを用いた識別器の組み合わせ問題を取り扱う。このアプローチでは2つの線形組み合わせルールを用いることができる。これらは識別器分布に関するある特定の拘束条件のもとで誤識別率(misclassification rate)を最小化することができる。このアプローチの有効性を示すために、他の一般的な組み合わせルールと合成データを用いた理論上の比較を行った。この試験ではまた実験的に2つの標準的データベース(MNIST手書き数字データベースとGREC記号データベース)を用いている。合成データセットにおける実験の結果はこの理論的アプローチの有効性を示している。更に実データを用いた試験では、提案手法が他の一般的な組み合わせ法を上回る性能を持つことが示される。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Pの3乗及びそれ以上:アルゴリズムにより高次の関数を解かせる
P3 & Beyond: Move Making Algorithms for Solving Higher Order Functions

Pushmeet Kohli, Microsoft Research, Cambridge M. Pawan Kumar, Stanford University, Stanford Philip H.S. Torr, Oxford Brookes University, Oxford

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 9, pp. 1645-1656 , September 2009

Keywords: Energy minimization, higher order MRFs, graph cuts, move making algorithms.

本稿では最適なα拡張およびαβ入れ替えが多項式時間で計算可能なエネルギー関数クラスの拡張を行う。具体的には、新しい高次クリークポテンシャル(higher order clique potential)族を導入し、これらのポテンシャルで構成されるあらゆるエネルギー関数のための前記の拡張と入れ替えを、劣モジュラー関数(submodular function)を最小化することで見つけることができることを示す。また、これらのポテンシャルのサブセットのための最適な入れ替えは、st-mincut問題を解くことで見つけることが可能であることも示す。このサブセットを{¥cal P}^nプロットモデルと呼ぶ。我々の実験結果により、強力なα拡張とαβ入れ替えの利用が可能となり、これによりエネルギー関数最小化のためのアルゴリズムが高次のクリークをカバーすることができるようになる。このような関数により自然画像中の有用な統計量をモデル化することができ、またコンピュータビジョンにおける多くの応用に用いることもできる。このようなアプリケーションの一つであるテクスチャに基づいた画像及びビデオ分割問題への、提案アプローチの適用を例証する。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


外れ値耐性の高い隠れマルコフモデルを用いた頑健な連続データモデリング
Robust Sequential Data Modeling Using an Outlier Tolerant Hidden Markov Model

Sotirios P. Chatzis, University of Miami, Coral Gables Dimitrios I. Kosmopoulos, NSCR Demokritos, Athens Theodora A. Varvarigou, National Technical University of Athens, Athens

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 9, pp. 1657-1669 , September 2009

Keywords: Hidden Markov models, student's t-distribution, expectation-maximization, factor analysis, sequential data modeling.

連続データモデリング及び識別アプリケーションにおいて、有限ガウス混合モデルを用いた隠れマルコフ(鎖)モデルは、隠れ状態分布として広く用いられてきた。しかしガウス混合モデルは、推定に用いられるフィッティングデータセット内の外れ値に対する耐性が低い事でもよく知られている。有限のスチューデントのt混合モデル(Finite Student’s t-mixture models)は、最近になって研究が進んできたヘビーテイル(発生確率の低い事象が全体に大きな影響を与える系)且つ頑健な、ガウス混合モデルの代替となるものである。連続データモデリングにおいてスチューデントのt混合モデルの利点を活用するために、本稿では新しい隠れマルコフモデルを導入する。このモデルでは隠れ状態分布がスチューデントのt分布の多変量確率密度の有限混合とみなされる。完全行列(full matrix)、対角行列、因子分析された共分散行列を改定した最大尤度フレームワークのもとでのモデルパラメタ推定のためのアルゴリズムを導出する。従来のアプローチと比較した場合の提案モデルの利点を、いくつかの連続データモデリングアプリケーションにおいて実験的に例証する。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


虹彩を用いたバイオメトリクスのための高精度且つ高速な虹彩分割
Toward Accurate and Fast Iris Segmentation for Iris Biometrics

Zhaofeng He, Institute of Automation, Chinese Academy of Sciences, Beijing Tieniu Tan, Institute of Automation, Chinese Academy of Sciences, Beijing Zhenan Sun, Institute of Automation, Chinese Academy of Sciences, Beijing Xianchao Qiu, Institute of Automation, Chinese Academy of Sciences, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 9, pp. 1670-1684 , September 2009

Keywords: Biometrics, iris segmentation, reflection removal, eyelid localization, eyelash and shadow detection, edge fitting.

後段の特徴抽出などの処理で利用される有効画像領域を規定するがゆえに、虹彩分割は虹彩認識における重要な処理である。従来の虹彩分割法は多くの場合、広大なパラメタ空間における全数検索を用いていた。これは時間効率の悪い処理であり、ノイズに対する耐性も低い。これらの問題に対応するために、本稿では高精度且つ高速な虹彩分割のための新しいアルゴリズムを紹介する。効率的な反射除去の後に、Adaboostをカスケードした虹彩検出処理を構築し、虹彩中心の大まかな位置決めを行う。次に虹彩境界のエッジ点を検出し、pulling and pushingと名付けた弾性モデルを構築する。このモデルを用い、フックの法則(Hooke’s law)による復元力により円形の虹彩境界の中心と半径を反復的に高精度化する。更に非円形虹彩境界を扱うための、平滑スプラインに基づいたエッジフィッティング法を示す。これらの処理の後、エッジ抽出とカーブフィッティングによりまぶたの位置決めを行う。この処理の新規性は、ノイズ削減のためのランクフィルタを、特異な形状のまぶたを処理するためのヒストグラムフィルタを、それぞれ採用したことである。最後に学習済み予測モデルを用いて、まつ毛と影を検出する。このモデルは、様々な虹彩領域の輝度の分散を解析することで、まつ毛と影の検出のための適応的閾値処理を与える。3つの困難な虹彩画像データベースを用いた実験結果により、提案アルゴリズムが、他の最新の方法を精度と速度の両面で凌駕することが示される。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ジェスチャー認識と時空間ジェスチャー分離のための統一フレームワーク
A Unified Framework for Gesture Recognition and Spatiotemporal Gesture Segmentation

Jonathan Alon, Boston University, Boston Vassilis Athitsos, University of Texas at Arlington, Arlington Quan Yuan, Boston University, Boston Stan Sclaroff, Boston University, Boston

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 9, pp. 1685-1699 , September 2009

Keywords: Gesture recognition, gesture spotting, human motion analysis, dynamic time warping, continuous dynamic programming.

手のジェスチャー認識分野における時空間ジェスチャー分離とは、ビデオ画像系列中で、ジェスチャーを行っている手の位置と、ジェスチャーの開始及び終了時間を特定するタスクとして定義されるものである。既存のジェスチャー認識方法の多くは、空間的分割か時間的分割、もしくはこれらの両方が既知であることを前提とする。本稿では、空間的分割と時間的分割、そしてジェスチャー認識を同時に実行するための統一フレームワークを紹介する。提案フレームワークは、ボトムアップとトップダウン両方の情報フローを持つ。これにより本手法は、手の位置が不明確で、且つジェスチャーの開始及び終了のタイミングが判らない場合でも、ジェスチャーを認識することができる。この特性ゆえに、背景画像領域が時間変化する散乱をもつ場合の、ジェスチャーを含む連続画像系列に適用することが可能である。提案手法は以下の3つの新規性を持つ部分からなる。第一に、複数の候補手領域の検出をフレーム毎に行うことができる時空間マッチングアルゴリズム、第二に、ジェスチャーモデルへの適合率が低いものを正確かつ早期に棄却することができる識別器に基づいた枝刈りフレームワーク、第三に、どの短時間ジェスチャーモデルが、長時間のジェスチャーの一部と偽適合してしまう可能性のあるかを学習するための部分ジェスチャー理由付けアルゴリズム。このアプローチの性能を次の2つの困難なアプリケーションにおいて評価する。一つは散乱背景条件下での半そでシャツを着たユーザによる手話数字の認識であり、他方は、連続した分割されていない米式手話言語(American Sign Language: ASL/ Ameslan)による手話を含む、ビデオデータベースから、注目する手話(signs of interest)の検出である。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像に基づくスピーチ認識のための複数系列の有節特徴に基づいたモデル
Multistream Articulatory Feature-Based Models for Visual Speech Recognition

Kate Saenko, MIT, Cambridge Karen Livescu, Toyota Technological Institute, Chicago James Glass, MIT, Cambridge Trevor Darrell, MIT, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 9, pp. 1700-1707 , September 2009

Keywords: Visual speech recognition, articulatory features, dynamic Bayesian networks, support vector machines.

複数の隠れ状態系列からなる動的ベイズネットワーク(dynamic Bayesian network: DBN)に基づいたモデルを用いた、自動的画像スピーチ認識(visual speech recognition: VSR)問題を検討する。この隠れ状態は、それぞれ唇の開閉(lip opening: LO)や唇の丸め(lip rounding: LR)などの有節特徴(articulatory feature: AF)に対応する。一群の判別的な有節特徴識別器から、上記のDBNへの入力情報が得られる。この入力情報は仮想証拠(virtual evidence: VE)(調整された尤度)の形式、もしくは識別器マージン出力そのものとして与えられる。中規模語彙の単語ランク付け及び小規模語彙のフレーズ認識という2つのタスクを用いた実験について説明する。これにより、有節特徴に基づいたモデルが、ベースラインとして比較した他の方法を上回る性能を持つことを示す。また、非同期性を認めることによる効果、辞書に基づいた方法と単語全体モデルとの比較、そして仮想証拠を経る形での識別器出力の利用と代替観測モデルの比較などの、様々な視点からこのモデルを検討する。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


シーン分割とヒストグラムに基づいた曲線発展について
On Scene Segmentation and Histograms-Based Curve Evolution

Amit Adam, Technion - Israel Institute of Technology, Haifa Ron Kimmel, Technion - Israel Institute of Technology, Haifa Ehud Rivlin, Technion - Israel Institute of Technology, Haifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 9, pp. 1708-1714 , September 2009

Keywords: Segmentation, Earth Mover's Distance, curve evolution, scene analysis.

特徴の分布の比較に基づいて曲線発展(curve evolution)とシーン分割への応用を検討する。本稿の前半では、標準的なBhattacharyya(バッタチャリア)尺度やKullback-Leibler(カルバック・ライブラー)尺度などの、瓶(bin:値によりグループ化されたまとまりのこと)ごとのメトリクスの代わりに、Earth Mover’s Distance(EMD)などの瓶間のメトリクスを推奨する。EMDを含む汎関数を最小化するためのフロー方程式を導出するために、1次元分布間のEMDを計算するための制御しやすい表現を用いる。次に導出したフローを、単一画像分割の様々な例および、ビデオデータからのシーン解析に適用する。本稿後半では、異なる活動が起きる空間領域毎にシーンを分割する問題を扱う。複数の正規化された時空間導関数の一次元ヒストグラムを考慮することで、領域のノンパラメトリック局所表現を用いる。そして上記フローを用いることで準教師付き領域分割を得る。困難な監視タスクにおいて試験した結果、我々のアプローチが、動的システムもしくはそれらの混合によるパラメトリック表現を用いた他の最新の手法と伍する性能を持つことが分かった。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


極座標及び球面座標におけるフーリエ解析に基づいた回転不変性
Rotational Invariance Based on Fourier Analysis in Polar and Spherical Coordinates

Qing Wang, University of Freiburg, Freiburg Olaf Ronneberger, University of Freiburg, Freiburg Hans Burkhardt, University of Freiburg, Freiburg

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 9, pp. 1715-1722 , September 2009

Keywords: Invariants, Fourier analysis, radial transform, multidimensional.

本稿では、ある関数のラプラシアンの固有関数、および対応座標系で分離可能な固有関数への分解として、極座標及び球面座標におけるフーリエ解析を定義する。上記のような変換により、画像を、単純な放射構造及び角度構造を伴う基本パターンに効率的に分解することができる。背景となる理論を、通常のフーリエ変換のアナロジーを用いて簡単に説明する。極座標フーリエ変換/球面座標フーリエ変換と、通常のフーリエ変換の間の関係を検討する。アプリケーション例として、極座標フーリエ係数及び球面座標フーリエ係数に基づいた回転不変な記述子を、パターン識別問題で試験する。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.31, No.10


疎な確率伝播法による類似度と辞書を利用した情景中のテキストの認識
Scene Text Recognition Using Similarity and a Lexicon with Sparse Belief Propagation

Jerod J. Weinman, Erik Learned-Miller, Allen R. Hanson

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 10, pp. 1733-1746 , 10 2009

Keywords: Scene text recognition, optical character recognition, conditional random fields, factor graphs, graphical models, lexicon, language model, similarity, belief propagation, sparse belief propagation.

情景テキスト認識(STR)とは環境情景の中に存在するテキスト(文字列)を、それが標識とか店舗の前面壁とか、何処にあろうと場所に関わらず認識することである。本課題においてはフォントが多種多様で、言語的情報が最小限で、環境条件に対する制約が無いことから、従来の文書認識と比較して認識が困難である。現状においては、本課題を解決するために得られる多くの情報はしばしば無視され、逐次小出しに利用されている。文字画像間の類似度は有用な情報であるが、これは見過ごされている。言語的事前情報の影響によって、認識器は同一文字に異なるラベルを与えるかもしれない。文字画像のモデルではなく、形状そのものを直接比較することで、類似性の属性として同一ラベルが与えられる可能性が増す。語彙情報によって認識精度が改善されるが、これは事後処理に利用される。ここでSTRの確率モデルを紹介するが、これには類似度、言語的性質、語彙的決定法が統合化されている。推論の加速には疎な確率伝播法(belief propagation, 信念伝播とも訳される)が用いられるが、これは弱い仮説への依存性を減少させた短縮ボトムアップメッセージ法である。情報源を1つのモデルに融合することによって、逐次処理によって発生する回復不可能な誤りを減少させる。屋外の情景中の標識のテキストを認識する実験から、文字形状類似度の導入によって誤認識が19%減少し、語彙辞書によって単語の誤認識が35%減少した。さらに、疎な確率伝播法によって12倍のスピードアップと99.9%減縮した語彙辞書で同一精度を達成した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


知識伝播法を利用した、確率的オブジェクトモデルのオブジェクト識別、セグメンテーション、認識のための教師無し学習法
Unsupervised Learning of Probabilistic Object Models (POMs) for Object Classification, Segmentation, and Recognition Using Knowledge Propagation

Yuanhao Chen, Long (Leo) Zhu, Alan Yuille, Hongjiang Zhang,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 10, pp. 1747-1761 , 10 2009

Keywords: Unsupervised learning, object classification, segmentation, recognition

確率的オブジェクトモデル(POM)を最小の教師付き指導で学習させる方法を紹介する。これには異なる視覚的手掛かりを使って、識別、セグメンテーション、認識のような課題を達成する。我々はこれを構造的帰納法と学習課題として定式化するのであり、我々の戦略は、相補的な視覚的特徴量を利用して基本的POMを学習して組み合わせることにある。我々は新規な構造的推論手続きを紹介するが、それは、あるPOMに他のPOMの情報を伝播させるために与え、「学習させる」ための(これによって学習や高速化に必要な訓練量が大きく減少する)手続きである。特に、注目点(IP=Interest Point)において弱い学習指導によって定義されるPOMを学習し(POM-IP)、これを使って局所的特徴量の上でPOM-maskを教育することで、セグメンテーションと局所化の両方を行う複合POMが得られる。この複合モデルによって識別効率が改善された完全POMである微小なエッジ(エッジレット、edgelet)上で定義されるPOM-edgeletを学習させることが可能となる。ここに大きなデータ集合によって識別やセグメンテーションを詳細に実験し、他の手法と比較分析する。さらに、完全POMの学習はスケール変換や回転変換に対して不変であり、オブジェクトのクラスが複数存在し、かつ、未知であるハイブリッドのオブジェクトを有する場合でも不変であることを示す。最後にPOMは、同じカテゴリーで異なる複数のオブジェクト間のマッチングにも利用できること、従って、オブジェクト認識に利用できることを示す。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


準潜在的なトピックモデルによる人の動作認識
Human Action Recognition by Semilatent Topic Models

Yang Wang, Greg Mori

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 10, pp. 1762-1774 , 10 2009

Keywords: Human action recognition, video analysis, bag-of-words, probabilistic graphical models, event and activity understanding

ここに、トピックモデルを利用した、ビデオ画像から人間の行動認識をする2つの新規なモデルを提案する。ビデオ画像系列を新規な「単語の袋」によって表現するが、ここで各フレームは「単語」に対応する。このモデルは、以前の認識用の潜在的トピックモデルとは次の2点で異なっている;(1) 本潜在モデルは直接クラスラベルに対応していること、(2)以前のトピックモデルの潜在変数のいくつかは本モデル中で観察される。また、本手法は視覚認識に使われた他の潜在トピックモデルと比べいくつかの利点がある。第1に、モデルパラメータが分離しているため学習がずっと容易であること。第2に、潜在トピックスの数をいくつに設定すべきかの課題が軽減されること。第3に、学習集合にクラスラベルを利用することで性能が良くなること。ここに、5つの異なるデータ集合に対して動作の識別結果を示す。これらのデータ集合の結果が示すように、我々の手法は従来法に比べ同等程度か、顕著に優れている。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


人とオブジェクトの相互作用を観察する:空間的・機能的互換性を利用した認識
Observing Human-Object Interactions: Using Spatial and Functional Compatibility for Recognition

Abhinav Gupta, Aniruddha Kembhavi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 10, pp. 1775-1789 , 10 2009

Keywords: Action recognition, object recognition, functional recognition

人が異なるオブジェクトと相互作用しているビデオ画像を理解することは挑戦的な課題である。そのためには情景やイベントを理解し、人の動きを解析し、操作されているオブジェクトを認識し、これらのオブジェクトに対する人の動きの効果を観察する必要がある。これらの知覚された課題が個々に処理される際、それらの相互作用が考慮されるときには認識率が向上する。人間の心理的研究がきっかけとなって、人とオブジェクトの相互作用を理解するためのさまざまな知覚課題を統合化するベイズ法を提案する。以前のオブジェクトと動作を理解する方法は、それぞれ統計的な形状・外観特徴量のマッチングと動き解析を利用していた。本手法は、これら伝統的な手法の先を行くもので、個々の知覚要素に空間的・機能的制約を適用し、整合的で意味のある解釈を導く。このような制約条件によって、外観が十分分離できないような場合でもオブジェクトと動作を認識することが出来る。また、このような制約によって、動きの無い静止画からも動作を認識できることを示す。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3D視覚的オブジェクト表現のための確率的枠組み
A Probabilistic Framework for 3D Visual Object Representation

Renaud Detry, Nicolas Pugeault, Justus H. Piater

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 10, pp. 1790-1803 , 10 2009

Keywords: Computer vision, 3D object representation, pose estimation, nonparametric belief propagation

ここではオブジェクト表現のための枠組みを提案し、これによって3D特徴量の間の統計的空間関係をコードし、これら特徴量を階層的に整える。この階層の最下部の特徴量は局所的3D記述子である。上位の階層の特徴量は、もっと基本的な統計的空間構成を再帰的にコード化する。この階層はマルコフネットワークに実装化される。その検出は確率伝播法によってなされ、局所的証拠から上位特徴量の姿勢が推測され、大局的に整合性のある知識から局所的証拠を強化し、効果的に検出情景中のオブジェクトの姿勢の尤度を計算する。さらに、局所的オブジェクト記述子から自動的に階層構造を構成する簡単な学習アルゴリズムを示す。これによって既知のオブジェクトの姿勢を未知の情景中で推測するためにどのようにして知識の枠組みを利用したかについて説明する。実験によれば、入力ノイズや視点の変更、隠蔽などに対して、階層がロバスト性を持っていることが実証された。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Mean-shift確率伝播法による実在画像中の変形格子の検出
Deformed Lattice Detection in Real-World Images Using Mean-Shift Belief Propagation

Minwoo Park, Kyle Brocklehurst, Robert T. Collins, Yanxi Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 10, pp. 1804-1816 , 10 2009

Keywords: Belief propagation, MRF, mean shift, lattice detection, wallpaper patterns

実世界画像中の変形2D壁紙の自動検出のための新規でロバストな計算の枠組みを提案する。2D結晶学群論によると、変形した壁紙パターンの基本格子と4次のグラフモデル間の「妥当で自然」な対応関係が得られる。我々は、教師無しで、注目点のクラスタリングと、これを適当な格子単位への投票によって発見プロセスと開始する。予想される格子の底ベクトルとパターン要素を、マルコフ確率場(MRF)中の機能に順次適合させ、同時適合させ(観察モデル)る。このように、2D格子の検出を、空間的、多目標追跡問題としてマルコフ確率場の中で定式化し、新規で効率的なMean-Shift確率伝播法を利用して解く。変形された格子の反復検出と成長は交互に薄平面スプラインのワーピングによって制御され、これによって現在変形している格子が、次のラウンドの格子再現プロセスで整列した格子へとMRFの安定化を保証する。ここに提案する手法と従来法を、261枚の実世界の写真で実演し、本手法が精度とスピードにおいて、自動的規則性の発見において、最新の手法をはるかに凌駕することを示す。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


弾性的動き推定のための混合変換隠れマルコフモデル
A Mixture of Transformed Hidden Markov Models for Elastic Motion Estimation

Huijun Di, Linmi Tao, Guangyou Xu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 10, pp. 1817-1830 , 10 2009

Keywords: Elastic motion, shape registration, mixture models, generative model

弾性運動とは、多少の滑らかさ指数と連続性によって制約される非剛体運動である。その結果、明瞭な特徴量マッチングによって弾性運動の推定をするという課題は2つの関連した部分問題を含んでいる:形状の位置あわせと、動き追跡の2つで、それぞれ空間的平滑さと時間的連続性から成る。もし両者の相互関係を無視して、各々だけで解を求めるとすれば、特徴量が込み入っているときは特に、困難なものとなる。これを確率論的なモデルとして統合すれば、ひとつの直接的な解法として、隠れ状態間に依存性を持たせることになる。分離された2つの状態に関して、それぞれが滑らかさと連続性の制約の元に存在する異なる2つの運動の解釈がある。各々は誤差の影響を受けやすく、両者が相互作用していることは、誤差が伝達する可能性がある。従って、2つの部分問題を持った確率モデルを統一することが強く望まれる。本論文はこのようなモデルを提案することを意図しており、変換隠れマルコフモデルの混合で記述するものであり、これによって時空間的制約の下に動きが一意、かつ、同時に記述される。その結果、混合変換隠れマルコフモデル法は、複雑なエッジ特徴量から弾性運動全体を整合的に説明でき、実際、曖昧で、欠損やはずれ値が存在するデータにおいても頑健性を保っている。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動くプラットフォームから他人数をロバストに追跡する
Robust Multiperson Tracking from a Mobile Platform

Andreas Ess, Bastian Leibe, Konrad Schindler, Luc van Gool

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 10, pp. 1831-1846 , 10 2009

Keywords: Mobile vision, multiobject tracking, pedestrian detection, stereo depth, visual odometry, graphical model

本論文では、人通りの多い歩道において複数の通行人を移動するプラットフォームに装着したステレオ装置を利用して追跡するという課題について述べる。本課題はあまりにも複雑であるために、視覚的情報を出来るだけ多く抽出して統合化し、これと認知フィードバックサイクルに結合する必要がある。このような手法によって統合的にカメラ位置、ステレオの深さ、オブジェクト検出、そして、追跡を推定する。これらの成分間の相互作用は図式的モデルで表現される。このモデルはオブジェクト間の関連と協調し、過去のフレームと時間的リンクが必要であり、直接推定することは無理である。したがって、我々は次のような2段階のプロセスを提案する:情景形状を推測し、オブジェクト検出には各フレームに単純化モデルによって解を求め(相互作用と時間的連続性を無視)、そして、過剰決定集合を用いる。第2のプロセスとして、オブジェクト間の相互作用、追跡の制約条件によって推定を行う。本手法は、にぎやかな市内の場所におけるいくつかの長時間で困難なビデオ画像に対して実験的に評価された。我々の結果によれば、本提案統合手法は、現実的な複雑度の実画像に対して、ロバストな追跡性能を見せた。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動的に状態を予測するための識別学習
Discriminative Learning for Dynamic State Prediction

Minyoung Kim, Vladimir Pavlovic

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 10, pp. 1847-1861 , 10 2009

Keywords: Discriminative models and learning, dynamic state prediction, state-space models, conditional random fields

ここでは、ある与えられた計測手順において未知の力学系で関連している現実の多変数状態の系列を予測する問題を考える。状態空間モデルのように有名な確率モデルによる動的な系は、状態と観測の結合モデル化は、従来の結合尤度を最大化する生成学習法と同様、最終ゴールに対しては最適ではないかもしれない。本論文では動的状態推定に対して2つの新規な識別法を提案する;1) 目標識別による学習生成による状態空間モデル、 2) 非統制条件モデルの開発。これらの手法を開発するきっかけは、特に隠れマルコフモデルや条件付確率場による識別学習を利用した識別状態領域での判別構造的出力法の成功に裏付けられている。条件付確率場(CRF)を現実の多変数状態領域に拡張するには一般的には密度積分性条件がCRFのパラメータ空間に要求されるため、パラメータ学習を困難にする。この課題を処理するため、我々は効率的な凸学習アルゴリズムを導入した。人間の動きやロボットの腕の状態推定など、いくつかの問題領域において、本提案手法は最新の手法に比べて、同程度以上の高精度の推測が可能であることを示した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多層から成る動的テクスチャー
Layered Dynamic Textures

Antoni B. Chan, Nuno Vasconcelos

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 10, pp. 1862-1879 , 10 2009

Keywords: Dynamic texture, temporal textures, video modeling, motion segmentation, mixture models, linear dynamical systems, Kalman filter, Markov random fields, probabilistic models, expectation-maximization, variational approximation, Gibbs sampling

新規なビデオ表現である多層の動的テクスチャー(LDT)を提案する。LDTは生成モデルであり、異なる見かけと動力学のレイヤー(階層)から構成される確率論的な集合体としてビデオを表現する。各レイヤーは異なる線形動的な系から取得された経時的テクスチャーとしてモデル化される。このLDTモデルは、隠れレイヤー各々の割り当て変数(画素からレイヤーへの割り当てをコントロールする)、および、これら変数のマルコフ確率場事前確率(これによって滑らかなセグメンテーションを促進する)の集合である。EMアルゴリズム(期待値を最大にする最尤アルゴリズム)は学習用ビデオのモデルパラメータのパラメータの最尤推定から得られる。しかし、正確な推定は不可能であることが示され、2つの近似的推定手続きを導入して説明される:Gibbsサンプリング法と計算効率の良い変分近似法によって。これら2つの近似法と計算複雑性(計算量)のトレードオフは実験的に決められる。ビデオ画像を整合性のある画像レイヤーとして、そして、動的にセグメント化するLDTの能力は、自然動画と合成動画の両方について評価された。この実験によってモデルは、局所的には不均一で確率論的な領域であるが、グローバルに均一な領域をグループ化する能力を持っており、従来の文献には見られない性能を有している。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像識別のための効率的オンライン適応モデルによる2次元多重ラベル能動的学習法
Two-Dimensional Multilabel Active Learning with an Efficient Online Adaptation Model for Image Classification

Guo-Jun Qi, Xian-Sheng Hua, Yong Rui, Jinhui Tang, Hong-Jiang Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 10, pp. 1880-1897 , 10 2009

Keywords: Active learning, online adaption, multilabel classification, image annotation

従来の能動的学習においては、学習用集合を動的に構成するが、これはサンプル次元に沿ってのみ考慮される。この戦略は2値識別では正しいが、画像の多重ラベルの識別に関しては準最適である。我々は各選択サンプルにおいては、いくつかの有効なラベルのみにタグ付けされている必要があるが、その他のサンプルではラベルの相関から推定可能である。その理由は、識別誤りを最小化するために異なるラベル付けする必要性は、固有のラベル相関に依存してそれぞれ理由が異なるからである。そのため、多重ラベルベイズ識別誤り上界を最小化するため、サンプルとラベルの対を選択することを提案する。我々はこれを2次元能動的学習法と呼ぶが、その理由はサンプル次元とラベル次元の両方を考慮する必要があるからである。また、能動的学習によって学習サンプルの数が急激に増加する場合、オフラインで学習する場合には、学習集合全体を通じて一つの新モデルを保持することが不可能になる。この場合は、既存モデルに一つの新規のモデルを追加した効率的オンライン学習器を採用し、与えられた多重ラベルの制約内でモデルの距離を最小化する。本提案手法の効果と効率は、2つのベンチマークのデータ集合によって評価され、現実世界の画像データベースを持つWeb site?Corbisでも評価された。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3連点を利用した視点に非依存の動作認識
View-Invariant Action Recognition from Point Triplets

Yuping Shen, Hassan Foroosh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 10, pp. 1898-1905 , 10 2009

Keywords: View invariance, homology, pose transition, action recognition, action alignment

本論文では、視点に非依存の新規な動作認識のための尺度を提案する。そのために、関節でつながった身体の動きが、身体上の3連点で定義できる剛体平面の動きに分解できるというアイデアを紹介する。身体上の3連点が、2つの等しい姿勢変換によって生成されるhomography(平面の射影変換)はhomology(相同性)の特別な場合に帰結するという事実を利用して、固有値の内の2つが等しいと言う事実を、2つの事象間の姿勢変換の類似度の尺度とするが、これは、視点の異なる2つの透視画像においても成り立つ。実験より、本手法は人の姿勢変換や動作を正確に同定できること、そして、動的な時間軸マップを含んでいても、全く異なる視点からの未知のパラメータのカメラによって撮影されていても成り立つことを示す。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3次元から1次元への正射影データから物体-イメージの関係を通した形状と動作の再現
Shape and Motion Reconstruction from 3D-to-1D Orthographically Projected Data via Object-Image Relations

Matthew Ferrara, Gregory Arnold, Mark Stuff

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 10, pp. 1906-1912 , 10 2009

Keywords: Geometric invariants, object-image relation, factorization method, shape from motion, orthographic projection, moving-target imaging

この論文は未知の視点から取得できる3次元から1次元への正射影データに対して、不変性を利用した形状と動作を再現するアルゴリズムについて述べる。このアルゴリズムは、反響波(エコー)に基づく距離データ(range data)の中で生じる対象物とイメージの関係を表現すると共に、文献に報告された研究の簡略化と統合化を表す。他の提案されたアプローチと違い、この手法は、そのアルゴリズムの形式を併進成分除去(重心成分の除去、距離の調整, etc.)とは独立なものになっており、一意性の制約を必要としない。新しいアルゴリズム(それは同時にあらゆる予測を取り入れて、最適化のプロセスにおいて初期化を必要としない)は、より少ない計算しか必要とせず、以前のアプローチより直接的である。これに加えて、この新しいアルゴリズムはTomasi and Kanadeにより、3D-から-2Dへの正射影データ用に開発されたアプローチの自然な延長として示される。そしてこれは開口部や雑音の量が変化するような実験だけでなく、開口合成レーダー画像の現実的な逆変換手順と言える。

MN

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


要素の再編成によるバイリニアー部分空間学習法(Bilinear Subspace Learning)の拡張
Enhancing Bilinear Subspace Learning by Element Rearrangement

Dong Xu, Shuicheng Yan, Stephen Lin, Thomas S. Huang, Shih-Fu Chang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 10, pp. 1913-1920 , 10 2009

Keywords: Bilinear subspace learning, element rearrangement, earth mover's distance, dimensionality reduction

バイリニアー部分空間学習の成功は、データマトリックスの行と列に沿った特徴量間で相関関係を減らすことに大きくかかっている。この論文では、我々はマトリックスデータの情報冗長性が既存のバイリニアー部分空間学習アルゴリズムによってより広範囲に取り除かれることができるように、これらの相関関係を最大にするためにマトリックスの範囲内で要素を再編成する問題を探求した。この本質的には整数のプログラム問題に効率的な反復アルゴリズムを提案する。各々のステップにおいては、マトリックス構造はそれらの下位のランク(階数)の近似とより類似するようになるために徐々にマトリックスは、Earth Mover's Distanceが制約された条件で改善されていく。このマトリックスの行と列に沿って特徴量の間で高い相関関係がある。これに加えて、我々は教師付き学習、あるいは、教師無し学習の両方の環境下での、バイリニアー部分空間学習の実験をした。教師付き学習、あるいは、教師無し学習の両方の環境下での、バイリニアー部分空間学習での実験は、データ圧縮の効果と層別化の正確性を高める上で我々が提案したアルゴリズムの効果を証明するものである。

MN

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.31, No.11


双方向テクスチャ関数モデリング:最新研究のサーベイ
Bidirectional Texture Function Modeling: A State of the Art Survey

Ji?? Filip, Institute of Information Theory and Automation of the AS CR, Praha Michal Haindl, Institute of Information Theory and Automation of the AS CR, Praha

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11, pp. 1921-1940 , November 2009

Keywords: BTF, BRDF, 3D texture, surface texture, texture measurement, texture analysis, texture synthesis, texture modeling, data compression, psychophysical study, light transport.

近年増加している実世界コンピュータビジョンアプリケーションでは、識別、分割、検索、そして実際的な素材のレンダリングが求められている。しかしこれらの外観は照明と観察上の差異により大きな変化 を生じる。それゆえ信頼性の高い素材表現のためには、光の波長域とカメラ位置の組み合わせを可能な限り多く取り、それらにおける素材の表面反射情報を得ることが必要である。これは近年の高度な テクスチャ表現の多くで共通する原則であり、双方向テクスチャ関数(Bidirectional Texture Function: BTF)と呼ばれるものである。マルチスペクトラムBTFは7次元関数であり、カメ ラ視点と照明方向、そして平面テクスチャ条件に依存するものである。BTFは多くの場合、照明の変化とカメラ視点の変化を組み合わせた非常に多数の(数千のオーダーの)画像を観測することで計算 することができる。しかし近年にいたるまで、このような大きなサイズの観測が必要であることから、本手法を実際的なアプリケーションで利用することができなかった。最近になって初めてBTF測量、圧縮、モ デリング及びレンダリング法が開発された。本稿では、新規分野及び重要なコンピュータビジョン及びグラフィック分野であらわれてきたこれらのアプローチを分類し、批判的にサーベイし、そして心理物理的 比較を行う。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


識別的顔画像整列
Discriminative Face Alignment

Xiaoming Liu, GE Global Research, Schenectady

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11, pp. 1941-1954 , November 2009

Keywords: Face, alignment, boosting, active appearance models, AAM, boosted appearance models, BAM, image alignment, gradient descent, landmark, generative versus discriminative model.

本稿では効率的な画像整列のための識別的フレームワークを提案する。従来の動的外観モデル(Active Appearance Model: AAM)に基づいたアプローチは、少しの成功を収めたものの、 生成モデルを用いて任意の画像をどのように整列するかという一般化問題を未だに抱えている。反復的画像整列問題を、正しい整列(正のクラス)と不正な整列(負のクラス)とを識別する能力を持つ訓 練された2クラス識別器のスコアを最大化するプロセスとして扱う。モデリング段では、与えられた入力画像と正解画像ランドマークの組みを用いて、従来の点分散モデル(Point Distribution Model: PDM)と、外観モデルとして働くブースティングに基づいた識別器を訓練する。初期ランドマーク位置により入力画像を試験すると、提案アルゴリズムは、変形された画像の識別スコアが最大に なるように、勾配上昇法を用いてPDMの形状パラメタを反復的に更新する。我々の特別な整列法及び学習済みの形状と外観モデルを、ブーストされた外観モデル(Boosted Appearance Model: BAM)と名付ける。提案フレームワークを顔画像整列問題に適用する。大規模な実験により、本フレームワークはAAMに基づいたアプローチに比べ、顔画像整列における頑健性、精度そして 効率が顕著に向上していることが示される。この効果は特に初見のデータに対して顕著である。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔の写真スケッチ合成と認識
Face Photo-Sketch Synthesis and Recognition

Xiaogang Wang, The Chinese University of Hong Kong, Hong Kong Xiaoou Tang, The Chinese University of Hong Kong, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11, pp. 1955-1967 , November 2009

Keywords: Face recognition, face sketch synthesis, face sketch recognition, multiscale Markov random field.

本稿では、マルチスケールマルコフ確率場(Markov Random Fields: MRF)を用いた新しい顔スケッチ合成及び認識のための方法を提案する。我々のシステムは3つのコンポーネントからなる。 1)与えられた顔写真を元にスケッチ画を合成する。2)スケッチ画を元に写真を合成する。3)アーティストにより描かれたクエリとなるスケッチを用いてデータベースから顔写真を検索する。この方法は、デジ タルエンタテイメントと法の執行において、有効な応用分野を持つ。本研究では、入力顔画像は正面から通常の照明条件で撮影された、隠蔽の無い不通の表情のものを想定する。スケッチ/写真画 像を合成するために、顔画像領域を重複のあるパッチに分解し、これを用いて学習処理を行う。学習される局所顔構造のスケールは、このパッチのサイズにより規定される。写真—スケッチの対を含む訓練 集合を用いて、写真—スケッチのジョイントモデル(joint model)を学習する。この学習はマルチスケールMRFモデルを用いたマルチスケール処理として行われる。顔写真をスケッチに変換することで(も しくはスケッチを写真に変換することで)、写真とスケッチとの差異が顕著に削減される。これにより顔スケッチ認識における、これら2者の間の効率的なマッチングができるようになる。写真—スケッチ変換を行 うことで、提案した顔写真認識アプローチのほとんどが、顔スケッチ認識に対して原則的にはそのまま適用可能となる。606の顔画像を含む顔スケッチデータベースを用いた大規模な実験を行った。このデ ータベースは我々のウェブサイト(http://mmlab.ie.cuhk.edu.hk/facesketch.html)からダウンロードできる。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


任意の未知照明条件下での単一画像からの顔の再照明
Face Relighting from a Single Image under Arbitrary Unknown Lighting Conditions

Yang Wang, Carnegie Mellon University, Pittsburgh Lei Zhang, Stony Brook University, Stony Brook Zicheng Liu, Microsoft Research, Redmond Gang Hua, Microsoft Live Labs Research, Redmond Zhen Wen, IBM T.J. Watson Research Center, Hawthorne Zhengyou Zhang, Microsoft Research, Redmond Dimitris Samaras, Stony Brook University, Stony Brook

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11, pp. 1968-1984 , November 2009

Keywords: Face synthesis and recognition, Markov random field, 3D spherical harmonic basis morphable model, vision for graphics.

本稿では、顔の外形とアルベド情報が未知という条件下で、照明条件を操作することで顔画像の外観を修正するための新しい方法を紹介する。1つの顔に対して利用可能な画像が1つしかない場合、 この問題は特に困難なものとなる。最近の研究により、凸ランバートオブジェクト(convex Lambertian object)は、球面調和関数による表現を用いた低次元の線形部分空間により、広範 な照明条件のもとで正確に近似することができることが示されている。更に変形可能なモデル(morphable model)を、形状やテクスチャなどの顔特徴の統計集合として用いる。本稿では三次元球 面調和基底変形可能モデル(spherical harmonic basis morphable model: SHBMM)を提案し、これにより球面調和関数とこの変形可能モデルフレームワークの統合を図る。 提案手法は、任意且つ未知の照明及び姿勢条件下で顔を3つの低次元ベクトルで表現することができる。これら3つのベクトルは、形状パラメタ、球面調和基底パラメタ、そして照明定数であり、これらを 総称してSHBMMパラメタと呼ぶ。しかし極端な照明条件下で撮影された入力画像では近似誤差が大きくなることがあり、これによりアルベド情報を復元することが困難になる。この問題を扱うために、我 々のアプローチは極端な照明条件に対して頑健であるだけでなく、部分隠蔽からの影響を受けないようにしてある。我々のフレームワークの性能を様々な実験結果により例証する。これには極端な条件 下での顔認識率の向上も含まれる。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


回転不変カーネル及び形状解析への応用
Rotation Invariant Kernels and Their Application to Shape Analysis

Onur C. Hamsici, The Ohio State University, Columbus Aleix M. Martinez, The Ohio State University, Columbus

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11, pp. 1985-1999 , November 2009

Keywords: Shape analysis, kernel functions, rotation invariance, spherical-homoscedastic distributions, face recognition, object recognition, handshape, LB1.

形状解析は変換、拡大縮小、および回転に対して不変であることが求められる。変換及び拡大縮小に対する不変性は、形状ベクトルを平均とノルムに関して正規化することで達成される。これにより形 状特徴ベクトルから超球の表面に対するマッピングが行われる。正規化の後、結果として得られるデータを用いることで複素スカラー回転不変分布を用いたモデリングにより、形状ベクトルを回転不変とする ことができる。この分布は複素超平面において定義されるものであり、たとえば複素Bingham分布がある。しかし、パラメタ推定の難しさとこれらの分布が示す非線形な挙動のために、これらの分布を用い ることは困難である。本稿では、カーネル関数の組みを回転不変カーネルとして用いることにより、元々の非線形問題を線形問題に変換する方法を示す。その名が示す通り、これらのカーネルは必要とされ る回転不変性を持ち、これにより複素球面分布に起因する実際上の困難を回避することができる。このアプローチにより、簡単かつ高速な2次元及び3次元形状解析のための仕組みが得られる。様々な 形状モデリング及び識別問題を元にした大規模な検証を行い、提案アプローチの精度を確認した。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


SemiBoost(準ブースト):準教師付き学習のためのブースティング
SemiBoost: Boosting for Semi-Supervised Learning

Pavan Kumar Mallapragada, Michigan State University, East Lansing Rong Jin, Michigan State University, East Lansing Anil K. Jain, Michigan State University, East Lansing Yi Liu, Michigan State University, East Lansing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11, pp. 2000-2014 , November 2009

Keywords: Machine learning, semi-supervised learning, semi-supervised improvement, manifold assumption, cluster assumption, boosting.

準教師付き学習は、パターン認識と機械学習の分野で注目され続けてきた。最近の研究では、ラベル付けされていないデータをラベル付きデータと効果的に共に用いることができるようにするための、特別 なアルゴリズムの設計にフォーカスしている。我々の目的は、利用可能なラベルなしデータを用いることで、あらゆる教師付き学習アルゴリズムの識別精度を向上させることである。我々はこれを準教師付き 改良問題と呼び、既存のアプローチと提案手法を区別する。教師付き学習アルゴリズムの拡張として機能し、ラベルなしデータを利用することで、その性能を向上させるような、メタ準教師付き学習アルゴ リズムを設計する。教師付き学習アルゴリズムを少数のラベル付きデータと、それに数倍するラベルなしデータで訓練しなければならないときに、上記問題は特に重要となる。本稿ではSemiBoostと呼ば れる準教師付き学習のためのブースティングフレームワークを紹介する。提案する準教師付き学習アプローチは以下の主な利点を持つ。1)多数のラベルなしデータがある場合に、既存のあらゆる教師付き 学習アルゴリズムの性能向上となること、2)反復型ブースティングアルゴリズムによる高い計算効率、3)多様体とクラスタ仮定の両方を訓練識別モデルで利用することができること。実際の実験により16 種類の異なるデータセットを用いたテキストカテゴリ化実験により、多数のラベルなしデータが与えられたとき、提案フレームワークが、いくつかの広く一般で使われている教師付き学習アルゴリズムの性能を向 上させることができることが示される。本稿で提案するSemiBoostアルゴリズムの性能についても示す。これは最新の準教師付き学習アルゴリズムに伍する性能を持っている。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


サイン検出と文書画像検索のためのマッチング
Signature Detection and Matching for Document Image Retrieval

Guangyu Zhu, University of Maryland, College Park Yefeng Zheng, Siemens Corporate Research, Princeton David Doermann, University of Maryland, College Park Stefan Jaeger, CAS-MPG Partner Institute for Computational Biology, Shanghai

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11, pp. 2015-2031 , November 2009

Keywords: Document image analysis and retrieval, signature detection and segmentation, signature matching, structural saliency, deformable shape, measure of shape dissimilarity.

サインは、広く普及した個人識別方法と文書認証の一つであり、また、様々なアプリケーションにおける効果的な文書画像処理と検索のために、説得力のある根拠を与え、インデクス付けの重要な形態 となるものである。しかし、散乱背景にあるサインなどの、自由形式のオブジェクトの検出と分割は、未解決の文書解析問題の一つである。本稿では、サインに基づいた文書画像検索における2つの根本 的な問題にフォーカスする。まず、文書画像からサインを協調的に検出し分離するための新しいマルチスケールアプローチを提案する。変化幅が大きい局所特徴に拘泥するのではなく、サイン生成モデルを 用いて構造的顕在特徴を利用し、複数のスケールにわたって二次元輪郭線分の動的曲率(dynamic curvature)を計算する。この検出フレームワークは一般的且つ計算的に扱いやすいもの である。次に非拘束条件下でのサイン検索問題を取り扱う。これは、変換、拡大縮小、そして回転に対して不変な非剛体形状マッチング問題である。非等方性スケーリングと位置残差 (registration residual error)に基づいた2つの新しい形状非類似性尺度を提案し、LDAを用いて複数の非類似性メトリクスから補完的形状情報を組み合わせるための教師付き学 習フレームワークを与える。最新の形状表現、形状マッチングアルゴリズム、非類似性尺度、そして文書画像検索において複数のインスタンスをクエリとして用いることについて、定量的に検証する。オフライ ンサイン検証において我々のマッチング技法を更に例証する。実際の英語とアラビア文字の印刷文書画像と手書き文書を集めた大規模なコレクションを用いた実験により、我々のアプローチの優れた特性 が示される。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像パッチサンプルを用いた素材識別のための統計的アプローチ
A Statistical Approach to Material Classification Using Image Patch Exemplars

Manik Varma, Microsoft Research, Bangalore Andrew Zisserman, University of Oxford, Oxford

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11, pp. 2032-2047 , November 2009

Keywords: Material classification, 3D textures, textons, image patches, filter banks.

本稿では未知の視点及び照明条件下での、単一画像からの素材識別問題を検討する。極端に小さい近傍領域(3x3画素くらいの小ささ)における輝度値の同時分布を用いることで、画像中の素材 が識別できることが示される。これは大きな近傍領域とフィルターバンクを用いた識別を上回る性能である。また同等の近傍領域サイズの場合、フィルターバンクの性能は、画像パッチの性能よりも劣ることも 示されている。我々はこのマルコフ確率場のための同時近傍分布のモデリングに適した新しいテキストン(texton)に基づいた表現を開発する。訓練画像集合を用いてこの表現を学習し、(未知の視 点及び照明条件の)新しい画像をテクスチャクラスに識別するために用いる。このような表現の内3つを提案し、それらの性能を評価し、フィルターバンクと比較する。コロンビア—ユトレヒトデータベースにある 61種類の素材の2806の画像を識別する課題により、本手法の性能を示す。本手法の識別性能は、Leung and Malik (IJCV 01)、Cula and Dana (IJCV 04)、Varma and Zissermann (IJCV 05)などの最近のフィルターバンクに基づく識別器を凌駕する。UIUC、マイクロソフトテクスタイル(Microsoft Textile)、及びサンフランシスコ野外データセッ ト(San Francisco outdoor data sets)の全てのテクスチャを用いた識別実験によるベンチマークを行った。何故コンパクトな近傍領域に基づいた特徴により、大域構造を持ったテクスチ ャを正確に区別できるのか、そして何故フィルターバングの性能が、そのフィルタの導出元である画像パッチの性能を凌駕することができないのかを議論し、本稿のまとめとする。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Bregman発散と学習のための代用手段
Bregman Divergences and Surrogates for Learning

Richard Nock, Universit? Antilles-Guyane, CEREGMIA-UFR Droit et Sciences Economiques, France Frank Nielsen, Ecole Polytechnique, France

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11, pp. 2048-2059 , November 2009

Keywords: Ensemble learning, boosting, Bregman divergences, linear separators, decision trees.

Bartlett et al (2006)による論文では、代用及び識別キャリブレーションのための前提となる条件(ground condition)により、これらの整合性最小化を識別リスクの整合性最小化 に結び付けて考える。またこれらの最小化に関するアルゴリズム上の課題は、重要な問題として残っている。本稿では、識別キャリブレーション済みの代用及びMurata et al (2004)の代用との 共通部分の問題点を扱う。このセットは、代用に関する3つの一般的な前提を満たすものと一致する。メンバーに対する方程式表現(これは時によく知られた形態となる)は凸代用及び凹代用に従う。こ れらは多くの場合、線形分離及び決定木の導出に用いられる。最も重要なことは、これらは共通したアルゴリズム上の特徴を持つことである。これらの内の2つのいかなる組み合わせに対しても、収束性が 証明された最小化アルゴリズムを与えることができる。これらは上記の代用のいずれに対しても収束することができる。これらのアルゴリズムはそれぞれ異なって見えるが、実は共通の“マスター”アルゴリズム空 の派生アルゴリズムであることを示す。この事実は、二乗損失(squared loss)やロジスティック損失(logistic loss)を持つ加法回帰(additive regression)や、CART及び C4.5で行われたトップダウン誘導を含む様々な一般的アルゴリズムに新たな価値を与えるものである。更にこの誘導は、前記の代用にかかわらず、殆どのポピュラーなブースティング特徴の恩恵を受けるこ とできることを示す。直ぐに実用可能な40の技術領域における実験結果を示す。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


デルタ対数正規型パラメタを持った手書き文字ストロークの特徴付けのための新しいアルゴリズムとシステム
A New Algorithm and System for the Characterization of Handwriting Strokes with Delta-Lognormal Parameters

Moussa Djioua, ?cole Polytechnique de Montr?al, Montr?al R?jean Plamondon, ?cole Polytechnique de Montr?al, Montr?al

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11, pp. 2060-2072 , November 2009

Keywords: Pattern recognition, kinematic theory, rapid movement, Delta-Lognormal model, lognormal function, parameter extraction, motor control, nonlinear regression, optimization, curve-fitting.

本稿では、デルタ対数正規型の関数のパラメタ推定と手書き文字のストロークの特徴付けのための新しい解析方法を示す。高速な人間の動きに関する運動学的理論によると、これらのパラメタは神経と 筋肉のシステムの動力に関する指令と時間特性の両方の情報を含んでいる。XZEROと呼ばれる新しいアルゴリズムでは、対数正規関数の一次及び二次時間微分のゼロ交差と、4つの基本パラメタとの 間の関係を利用する。これに加え、初の試みとして、抽出誤差のばらつきと、そのSN比とを関連付ける指数的関係の利点を生かし抽出精度を実証的に定量化する。このアルゴリズムと2つの既存の方 法を組み合わせた新しい抽出システムを紹介し、評価する。このシステムは様々なパターン解析分野と人工知能分野の研究者に、高速な人間の動きを理解するためのプリミティブとしての単一ストローク の基本研究のための新しいツールを与えるものである。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


クラス選択的な棄却と、性能に対する拘束条件を持った最適決定ルール
Optimal Decision Rule with Class-Selective Rejection and Performance Constraints

Edith Grall-Ma?s, Universit? de Technologie de Troyes, Troyes Pierre Beauseroy, Universit? de Technologie de Troyes, Troyes

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11, pp. 2073-2082 , November 2009

Keywords: Decision rule, pattern classification, multiclass, class-selective rejection, partial rejection, preselection, constraints, statistical decision theory.

性能拘束条件とクラス選択的な棄却を考慮に入れて決定ルールを定義する問題を、一般フレームワークとして定式化する。本稿で提案する定式化では、この問題を3つの種類の指標を用いて定義する 。最初のものは最小化されるべきコストであり、これは目的関数を定義するものでもある。第二の指標は決定オプションであり、これは許容しうる割り振りクラスもしくはそのサブセットにより決定される決定オプ ションである。そして第三の指標は性能に対する拘束条件である。状態あり最適化問題を解くことで、統計的決定理論フレームワークにおける最適な決定ルールが得られる。この定式化を例証するために 2つの例を与え、前記の決定ルールを得る。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


強欲な近似アルゴリズムによる入れ子されたクラスタの最適な組み合わせ
Optimal Combination of Nested Clusters by a Greedy Approximation Algorithm

Edward K.F. Dang, The Hong Kong Polytechnic University, Hong Kong Robert W.P. Luk, The Hong Kong Polytechnic University, Hong Kong D.L. Lee, Hong Kong University of Science and Technology, Hong Kong K.S. Ho, The Hong Kong Polytechnic University, Hong Kong Stephen C.F. Chan, The Hong Kong Polytechnic University, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11, pp. 2083-2087 , November 2009

Keywords: Clustering, classification, performance evaluation, optimization.

クラスタセットが与えられた時、マイクロ平均(microaverage)F-測量を最大化するようなこのクラスタのサブセットを求める最適化問題を取り扱う。クラスタリングの良さを評価するためにこの最適値を 用いることができる。任意の重複あるクラスタに対して、この最適値を求める問題はNP困難である。強欲な近似アルゴリズムを用いることで、入れ子状態の重複のみを持つクラスタのための大域最適解を 求められることを主張する。帰納法を用いてこの主張の数学的証明を与える。合計N個のオブジェクトを持つn個のクラスタの族に対して、このアルゴリズムは{¥rm O}(n^{2})の時間複雑性とO(N) の空間複雑性を持つ。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


外れ値を持つ訓練データを用いた新規性検出のための小径の球と大きなマージンを持つアプローチ
A Small Sphere and Large Margin Approach for Novelty Detection Using Training Data with Outliers

Mingrui Wu, Yahoo! Inc., Sunnyvale Jieping Ye, Arizona State University, Tempe

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11, pp. 2088-2092 , November 2009

Keywords: Novelty detection, one-class classification, support vector machine, kernel methods.

新規性検出問題のためのアプローチとして、小径の球と大きなマージンを利用するものを提案する。このとき、訓練データの大多数は正常なものであり、ごく少数の非正常値、もしくは外れ値を持つものと する。基本となるアイディは、殆どの正常値サンプルを包含するような超球(hypersphere)を作り、この超球の体積が最小となるようにし、同時にこの超球表面と訓練データ内の外れ値とのマージン距 離を最大化することである。このアイディアにより、正常データの周囲に閉じた極近傍の境界を形成することができる。このような球を形成するためには、凸最適化(convex optimization)を解き さえすればよい。この問題は¥nu¥hbox{-}サポートベクトルマシンを訓練するための市販のソフトウェアを用いて効率的に解くことができる。提案アルゴリズムの効果を検証するための実験結果を示す。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


FINE(Fisher Information Nonparametric Embedding):フィッシャー情報のノンパラメトリック埋め込み
FINE: Fisher Information Nonparametric Embedding

Kevin M. Carter, Information Systems Technology Group, Lexington Raviv Raich, Oregon State University, Corvallis William G. Finn, University of Michigan, Ann Arbor Alfred O. Hero III, University of Michigan, Ann Arbor

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11, pp. 2093-2098 , November 2009

Keywords: Information geometry, statistical manifold, dimensionality reduction, multidimensional scaling.

直接的なユークリッド表現が存在しない場合の、高次元データのクラスタリング、識別そして可視化の問題を検討する。本稿では、情報幾何と統計的多様体の特性により、フィッシャーの情報距離を用い たデータセット間の類似性を定義する。パラメタ化及び多様体の幾何的特性が未知の場合に、完全にノンパラメトリックな方法を用いてこの尺度を近似できることを示す。更に多次元スケーリング法を用い て統計的多様体を低次元ユークリッド空間において再構築することができる。これにより効率的なデータの学習が可能となる。上記を総称し、我々はこれをフィッシャー情報ノンパラメトリック埋め込み (Fisher Information Nonparametric Embedding: FINE)と呼ぶ。本稿では、生物医学的応用分野や文書識別などの実際の問題にこのフレームワークを適用する。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


識別のための専用に仕立てられた集合
Tailored Aggregation for Classification

Tristan Mary-Huard, UMR AgroParisTech/INRIA, Paris St?phane Robin, UMR AgroParisTech/INRIA, Paris

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11, pp. 2098-2105 , November 2009

Keywords: Classification, aggregation, selection, large-dimension data, ordered variables.

圧縮と変数選択は、識別問題において高次元データセットを扱うための2つの古典的戦略である。本稿ではこれらに代わる戦略を提案する。これは集合(aggregation)と呼ばれるものであり、冗長 な変数のクラスタリング処理段と各グループ内での圧縮処理段からなる。専用に仕立てられた集合法を定義するための統計的フレームワークを開発する。これらの集合法を選択法と組み合わせることで、 冗長な変数の中にある情報を活用することができるような、信頼性の高い識別器を構成する。順序づけされた変数と、順序づけされていない変数に対応できるように、2つのアルゴリズムを提案する。kNN 及びCARTアルゴリズムに対する応用を示す。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


実用的な笑顔検出に向けて
Toward Practical Smile Detection

Jacob Whitehill, University of California, San Diego, La Jolla Gwen Littlewort, University of California, San Diego, La Jolla Ian Fasel, University of Arizona, Tucson Marian Bartlett, University of California, San Diego, La Jolla Javier Movellan, University of California, San Diego, La Jolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11, pp. 2106-2111 , November 2009

Keywords: Face and gesture recognition, machine learning, computer vision.

人間の表情認識のための最高性能の認識器のいくつかでは、機械学習アプローチが採られている。しかし今日に至るまで、ほぼすべての表情認識の研究は、実験のために制御された照明条件 (controlled lighting condition)下で撮影された少数の被験者の顔画像を集めた、少数のデータベースで最高の性能が出るように調整されたものである。本稿では、更に実際的な 条件下で、高い信頼性を持って運用可能な表情認識システムを、現在の機械学習法を用いて開発することが果たして可能かどうかを検討する。訓練データセット、画像位置合わせ、特徴表現、そして 機械学習アルゴリズム、それぞれに求められる条件について検討する。被験者自身により撮影された写真を集めた新しいデータベースGENKIを紹介する。これらの写真は様々な実世界撮影条件下で 撮影された、数千の被験者の写真である。実験の結果は、実世界における照明条件において、機械学習アプローチが人間と同程度の表情認識精度を達成しうることを示している。しかし、他の研究で 自動表情認識のために用いられているデータセットは恐らく過度に拘束されており、局所最適なアルゴリズム上の解を導出する潜在的能力を持っているだろう。

TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.31, No.12


2次平滑さの事前項を有するグローバルなステレオ再現法
Global Stereo Reconstruction under Second-Order Smoothness Priors

Oliver Woodford, Philip Torr, Ian Reid, Andrew Fitzgibbon

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 12, pp. 2115-2128 , 12 2009

Keywords: Stereo, second-order prior, discrete optimization, graph cuts

3D表面の平滑化のための2次事前項は、代表的な情景における1次の事前項よりは優れたモデルである。しかし、グラフカットのようなグローバル最適化推論のアルゴリズムを利用したステレオ再現では2次の事前項を取り込むことは出来ない。なぜならこれを表現するための3重のクリークでは扱えない(非サブモジュラー)からである。本論文では、3重クリークによる推論によって効率的に計算できることを示す。我々の最適化戦略は最新の“ QPBO”アルゴリズムに基づくα拡張(alpha-expansion)へと発展させることである。本戦略は、新規なQPBOの拡張を利用して、提案深さマップを繰り返し併合することになる。提案深さマップはどんなものでも良く、例えば、α拡張におけるfrontoparallel planes(観察者の顔面に平行な面)であったり、実際任意のパラメータを持ったどんなステレオアルゴリズムによるもので構わない。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効率的部分ウィンドウ探索:オブジェクト同定のためのBranch and Bound(分枝限定)法
Efficient Subwindow Search: A Branch and Bound Framework for Object Localization

Christoph H. Lampert, Matthew B. Blaschko, Thomas Hofmann

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 12, pp. 2129-2142 , 12 2009

Keywords: Object localization, sliding window, global optimization, branch and bound

最も成功しているオブジェクト認識システムは2分識別法を利用しており、オブジェクトが存在するか否かだけを判定し、オブジェクトの位置までは判定しない。オブジェクトの位置を推定するためにはスライドウィンドウ法を使う必要があるが、このためには演算コストが著しく増える。識別器や類似度関数を大量の部分候補ウィンドウ全般に渡って評価する必要があるからである。本論文では単純であるが強力な分枝限定法を提案し、すべての候補画像について効率的な定量的関数の組の最大化が可能となる。この手法はグローバル最適解に線形か時によっては線形以下の高速で収束する。2次のスケール変換を伴う全ウィンドウ探索やスライドウィンドウ探索と良い対照である。異なるオブジェクト検出や画像検索目的に、どのように適合するかを示す。これを高速化するために、以前は遅すぎると思われていた、空間ピラミッドカーネルによるSVM法とか、χ2乗距離に基づく最近傍識別器のような手法も利用可能となる。この手法を、UIUC Carsデータベース、PASCAL VOC 2006データベース、PASCAL VOC 2007競技用データベースへ適用した最新の結果を示す。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


学習尺度のための高速類似度探索法
Fast Similarity Search for Learned Metrics

Brian Kulis, Prateek Jain, Kristen Grauman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 12, pp. 2143-2157 , 12 2009

Keywords: Metric learning, similarity search, locality-sensitive hashing, LogDet divergence, kernel learning, image search

学習した尺度のためのスケーラブルな類似度探索を可能にする手法を紹介する。いくつかの事例について、対ごとの類似度と非類似度が与えられたとき、事例で示された関係をうまく把握するようなマハラノビス距離関数を学習することができる。学習済み尺度の探索をサブリニアー時間(sublinear time)で実現するためには、学習尺度のパラメータ化をどのようにして確率的な場所依存性ハッシュ関数にコード化するかについて示す。更に、ベクトル空間の尺度学習とハッシュ化を可能にする間接的解の定式化を示し、これがベクトル空間の次元が高過ぎて明示的変換の学習ができない場合に利用できることを示す。これが多様な画像データ集合に応用可能であることを示す。この学習尺度は、普通に利用される基本的尺度に比べ精度が高く、しかも、ハッシュ法による構築によって学習距離や非常に大きなデータベースに対して効率的である。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


エピトーム(概要)画像の位置認識
Epitomic Location Recognition

Kai Ni, Anitha Kannan, Antonio Criminisi, John Winn

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 12, pp. 2158-2167 , 12 2009

Keywords: Location class recognition, epitomic image analysis, panoramic stitching

本論文では位置認識の新規な手法を紹介する。これは、エピトミック(簡略的)な表現(パノラマ画像)によって、効率的にかつ汎用的に利用できることを可能にする。生成モデルに基づくエピトミック画像解析によって環境の外観と、幾何学的構造が把握でき、同時に動き、隠蔽、非ランベルト効果などの変化を可能にする。また、平行移動、スケール不変性だけでなく、多様な特徴量を併し、経済的な学習によって一般化が可能となる。既存のデータベースだけでなく、新規にラベル付けした画像データベースによる実験から、最新技術の認識精度を上回り、しかも実時間計算の性能を示した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き数字の認識器のための一点除去学習法と一点除去テスト法による隠れマルコフモデル。単一識別器と多数識別器の関係
Leave-One-Out-Training and Leave-One-Out-Testing Hidden Markov Models for a Handwritten Numeral Recognizer: The Implications of a Single Classifier and Multiple Classifications

Albert Hung-Ren Ko, Paulo Rodrigo Cavalin, Robert Sabourin, Alceu de Souza Britto,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 12, pp. 2168-2178 , 12 2009

Keywords: Hidden Markov Models, ensemble of classifiers, sequence, noise, leave one out, pattern recognition

隠れマルコフ法(HMMs)は手書きパターンの認識に有効であることが示されてきた。しかし、その基本的な構成から、観測中の予期せぬノイズに対する耐性はほとんど持ってない。すなわち、連続画像中の予期せぬノイズは、連続する状態の正常な変化を「壊す」可能性があり、学習モデルが認識不能になる。この問題点を除くために、一点除去学習戦略によって、モデルをロバストにすることを提案する。更に、一点除去テスト法を提案し、このようなノイズによる負の効果を補償する。後者は単一識別器を使い、多数回識別するシステムの例である。ベンチマークHMMsによる識別精度が98.00%であったのに対し、本新システムでは手書き数字の認識精度が98.88%であった。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単眼画像による歩行者の検出:文献調査と実験
Monocular Pedestrian Detection: Survey and Experiments

Markus Enzweiler, Dariu M. Gavrila

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 12, pp. 2179-2195 , 12 2009

Keywords: Pedestrian detection, survey, performance analysis, benchmarking

通行人の検出はコンピュータビジョンで急速に進化している分野であり、その重要な応用としてインテリジェント車載用、野外調査、ロボットなどがある。本論文の目的は方法論と実験の両面から最新技術の概観を提供することである。論文の最初の部分は調査である。ここでは通行人の検出システムの主要部分と、背景となるモデルについて述べてある。2番目の部分は、1番目よりもっと大きいが、対応する実験結果の論文である。ここでは幅広い最新技術のシステムについて考察してあり、ウェーブレットによるAdaBoostカスケード、HOG/linSVM、NN/LRF、形状とテクスチャーの組合わせによる検出法、について述べている。都市部を運転しながら大量のデータを車載システムから得た。収集したデータには、多くの学習データが含まれているだけでなく、歩行者の位置を記述した2万枚以上の画像からなる27分の試験用画像列も含まれている。我々は汎用的な方法と、車載で歩行者を検出する1つの特殊な評価手法を考案した。結果は、高解像で低速処理では明らかにHOG/linSVMの優位が示された。低解像ではウェーブレットに基づくAdaBoostカスケード法が実時間処理した。このデータ集合はベンチマークのために公開される。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時空モンテカルロマルコフ鎖データ関連付けによる複数標的の追跡
Multiple-Target Tracking by Spatiotemporal Monte Carlo Markov Chain Data Association

Qian Yu, Gerard Medioni

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 12, pp. 2196-2210 , 12 2009

Keywords: Multiple-target tracking, data association, MCMC, visual surveillance

複数の標的を追跡するフレームワークを提案する。ここでのフレーム毎の入力信号は最新技術によって背景から切り出した要素のような候補領域の集合であり、経時的に標的の軌跡を復元することが目的となる。複数の標的や静止物による隠蔽とか、あるいは、切り出しに伴うノイズや誤報によって、ひとつの前景が他のひとつの標的とぴったり合致することはないかも知れない。従って、多くのアルゴリズムで仮定している1:1の対応関係は成り立たないかもしれない。我々の手法では、1:1の対応関係が無くても、観測結果に、動きや外観がもっとも整合性を保つよう時空内での対応させる追跡問題の定式化によって、この困難を克服する。可能性のあるすべての解を計算する代わりに、データ牽引型マルコフ鎖モンテカルロ(DD-MCMC)法を利用して、解空間を効率的にサンプリングした。このサンプリングは、動きと外観の結合確率モデルによって制御される情報に基づく提案戦略によって駆動される。定量的評価による比較実験結果を示す。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


紅彩認識のための順序尺度
Ordinal Measures for Iris Recognition

Zhenan Sun, Tieniu Tan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 12, pp. 2211-2226 , 12 2009

Keywords: Biometrics, feature representation, iris recognition, multilobe differential filter, ordinal measures

ヒトの虹彩画像は豊富なテクスチャー情報を保持しており、ヒトの同定や認証に有用である。虹彩認識において重要であるが未だ未解決な問題点は、コンパクトな特徴量(虹彩特徴量)を利用して、どの程度テクスチャー情報を最適に表現できるか、ということである。本論文では、虹彩表現を順序尺度によって表すことを提案するが、そのために、虹彩の画像構造を詳細に計測するのではなく、虹彩領域の間を定量的関係で特徴づける。このような表現によって画像特有な情報を失うかもしれないが、本方法は弁別能力とロバスト性の適度なトレードオフとなっている。虹彩パターンの順序尺度と固有の特徴量は、照明変化には概略不変であることを示す。更に、順序尺度のコンパクト性と計算量の少なさによって、極めて効率の良い虹彩認識が可能になる。順序尺度というのは画像解析に有用な一般的考え方であるから、順序特徴量抽出として多くの変形が可能である。本論文では、多数の突出部を有する微分フィルターを開発し、位置、スケール、方位、距離などの柔軟性のあるイントラローブ、インターローブパラメータを計算し、順序尺度を得た。3つの公開されている虹彩画像データベースへの実験結果は、この提案手法による順序尺度モデルの有効性を実証した。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフマッチング問題のための、経路追跡アルゴリズム
A Path Following Algorithm for the Graph Matching Problem

Mikhail Zaslavskiy, Francis Bach, Jean-Philippe Vert

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 12, pp. 2227-2242 , 12 2009

Keywords: Graph algorithms, graph matching, convex programming, gradient methods, machine learning, classification, image processing

我々はラベル重み付きグラフマッチング課題のための、凸凹プログラミング手法を提案する。この凹凸プログラミング手法の定式化は重み付きグラフマッチング問題を順列行列集合についての最小二乗問題として、そして、2重確率行列上の2つの異なる最適化問題である2次凸と2次凹の最適化問題の緩和法で解くよう書き直して得られる。凹緩和法は初期グラフマッチング問題と同じグローバルな最小値を持つが、グローバル最小値への探索は、困難な組み合わせ問題となる。我々はそのため、凹問題の近似解を凸凹問題の解経路をたどりながらの近似法を構築した。本手法はグラフラベルの類似度上の情報を最適化問題として容易に統合できる結果、ラベル付き重み付きグラフマッチングが実行できる。このアルゴリズムは最高性能のグラフマッチング法と以下の4つのデータ集合について比較されたが;シミュレートされたデータ、QAPLib、網膜血管画像、手書き漢字。どのケースでも、最新手法と比べ、競争力があった。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単一画像からのVignetting補正法
Single-Image Vignetting Correction

Yuanjie Zheng, Stephen Lin, Chandra Kambhamettu, Jingyi Yu, Sing Bing Kang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 12, pp. 2243-2256 , 12 2009

Keywords: Vignetting correction, camera calibration, low-level vision

本論文では、たった1枚の画像からロバストにヴィネッティング(vignetting)(コサイン4乗則、口径食など、周辺光量の低下)を決定可能な手法を提案する。この手法は、入手可能な情報利用を最大化するためにテクスチャーのある領域も無い領域も両方を扱うように出来ている。与えられた画像からvignetting情報を推定するためのデータ領域を高信頼で同定する切り出す方法を示す。各画像中においてvignettingの周波数特徴と物理的特徴を利用し、他の要因による強度の変動と区別する。はずれ値の画素は除いて、vignetting推定のロバスト性を改善する。シミュレーションや実際のvignetting画像に対する入念な実験から、本手法が広範囲の画像に有効であることが実証された。また、本手法による失敗例の原因も解析された。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


勾配ベクトルフローを利用した変動曲線スケルトン
Variational Curve Skeletons Using Gradient Vector Flow

M. Sabry Hassouna, Aly A. Farag

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 12, pp. 2257-2274 , 12 2009

Keywords: Curve skeletons, shape representation, skeletonization, gradient vector flow, Eikonal equation, centerline extraction, path planning, medial axis

3D形状の境界に関して局所的対称性を有する1D曲線集合によって3D形状を表現(曲線スケルトン)することは、いくつかの知識処理の課題において重要である。本論文は、voxel以下の精度で、立体的オブジェクトの曲線スケルトンを連続的に計算する、高速、自動、ロバストな変分フレームワークを提案する。オブジェクト内部の参照点は、オブジェクトの異なるエネルギーを伝播する波面の点源と考えられる。最初の波面(β波面)はオブジェクトをグラフに変換し、これからオブジェクトの特徴的位相のノードが決定される。これらのノードからコスト場に沿った第2の波面(α波面)で構築されたコスト場に沿って、軌跡が点源に到達するまでの間に構築された曲線スケルトンが追跡される。ここで提案された方法は、他の競合する方法と精度やロバスト性の妥当性が3Dオブジェクトのデータベースに対しても確認された。最新の手法と異なり、本提案手法は極めてロバストであるが、それはスケルトンの交差ノードの位置や識別をせず、内側面を形成しない新規のエネルギーを利用して、細かく曲線スケルトンを抽出しているからである。この曲線は形状の最も顕著な部分に対応し、そのため、ノイズの影響は小さい。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高次元におけるマハラノビス距離の情報損失:特徴量選択への応用
Information Loss of the Mahalanobis Distance in High Dimensions: Application to Feature Selection

Dimitrios Ververidis, Constantine Kotropoulos

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 12, pp. 2275-2281 , 12 2009

Keywords: Bayes classifier, Gaussian distribution, Mahalanobis distance, feature selection, cross validation

無限の学習データを利用するときは、次元Dのパターン計測ベクトルとそのクラスの中心のマハラノビス距離は自由度Dのカイ2乗分布に従っている。しかし、パラメータの推定に交差検証か代替推定のいずれを利用するかによって、有限学習データに対してはFisher 分布か、あるいは、Beta分布となる。カイ2乗分布とFisher分布、あるいはカイ2乗分布とBeta分布も、双方の間の全変動量の推定は、高次元において情報損失を計測することが可能となる。情報損失量が計測され、これは部分集合の特徴量選択時に利用されるベイズ識別器による正識別率の下限を与える。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


照度差ステレオを利用した近似平面による表面再構成の最適化
Optimal Reconstruction of Approximate Planar Surfaces Using Photometric Stereo

Toni Kuparinen, Ville Kyrki

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 12, pp. 2282-2289 , 12 2009

Keywords: Photometric stereo, photometry, surface reconstruction, Wiener filtering, sharpening and deblurring, roughness

ランベルト表面の再構成を高速にかつ非接触に行う方法ために照度差ステレオ(photometric stereo)が利用できる。照度差ステレオに関する不定性や最適な光の構成に関するいくつかの発表論文が存在するにも関わらず、ノイズの多い実画像から最適表面を再構成する解は与えられてない。本論文では、照度差を利用した近似平面テクスチャー表面の最適再構成法について述べる。ただし、画像化の統計的誤差は与えられているものとする。シミュレーションと実測値は実験的に比べられ、提案法によって再構成表面が改善された。特に、高さの変動周波数成分が大きいとき有効であった。

Ej

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ターボピクセル:ジオメトリの流れ処理を使った高速のスーパーピクセル
TurboPixels: Fast Superpixels Using Geometric Flows

Alex Levinshtein, Adrian Stere, Kiriakos N. Kutulakos, David J. Fleet, Sven J. Dickinson, Kaleem Siddiqi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 12, pp. 2290-2297 , 12 2009

Keywords: Superpixels, image segmentation, image labeling, perceptual grouping

我々は、よくスーパーピクセルと呼ばれる、緊密な過分割画像を計算するための、ジオメトリ(境界)の流れ処理に基づく(geometric-flow-based)アルゴリズムについて説明する。片や局所のイ メージの境界に関わる領域を生成する一方で、他方でそれらは(画像の)緻密性という制約により、過小分割に制限を設けている。それは、画像サイズでもほぼ→に対してほぼ線形の計算複雑性で、非常に速く、ほんの数分で高いスーパーピクセル密度でメガピクセルサイズの画像に適用することが出来る。我々は、いくつかの複雑な画像に関して高品質の処理結果をもたらした実例を示す。バークレー (Berkeley)データベースを利用して、多くの過分割な傾向のあるアルゴリズムと定量的に比較した結果、緻密性という制約条件を持たないアルゴリズムより、過小分割が少ない事が確認された。また、それはデータの緻密性を強いるN-Cut(Normalized Cut)処理に比べて大きなスピードアップを達成している。

MN,TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動作を通した2次元の顔認証のための一般的なエピポーラ幾何学を用いたステレオマッチング(Stereo Matching)処理の利用
Using Stereo Matching with General Epipolar Geometry for 2D Face Recognition across Pose

Carlos D. Castillo, David W. Jacobs

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 12, pp. 2298-2304 , 12 2009

Keywords: Face recognition, pose, stereo matching, epipolar geometry

様々なポーズにおける顔の認証は、コンピュータビジョンにおいて基本的に重要な問題である。我々は2つの、異なるポーズから見られる顔の2次元画像の類似性を判断するためにステレオマッチング処理を用いてこの問題に取り組むことを提案する。 ステレオマッチング処理では任意性の、物理的にありうる連続的な対応を行う。我々は、ステレオマッチングのコストが、ポーズの変化に関わらず、顔の類似性の頑健な尺度として利用可能であることを示す。これを可能にするために、我々は、顔認証において一般の状況では、顔画像がエピポーラ幾何学により4か3つの特徴点を使って計算されることが出来ることを示す。我々はまたステレオマッチングアルゴリズムを、顔と顔の類似性を計算するために適用した。提案したアプローチはCMU PIEデータセットでテストされており、ポーズの変化に対し既存の方法と比較して優れた性能を示す。それはまた照明の変化にも耐えられることを示している。(MN,TS)

MN,TS

Copyright (c) 2009 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


[インデックス] [前の年] [次の年]