AbstractClub - 英文技術専門誌の論文・記事の和文要約


[インデックス] [前の年] [次の年]


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.28, No.1


指紋認証システムの性能評価
Performance Evaluation of Fingerprint Verification Systems

Raffaele Cappelli, Dario Maio, IEEE, Davide Maltoni, IEEE, James L. Wayman , Anil K. Jain, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 1, pp. 3-18 , January 2006

Keywords: Biometric systems, fingerprint verification, performance evaluation, technology evaluation, FVC

本稿は指紋認証システムの性能評価を扱う。現在のバイオメトリクス試験法の初期分類を行った後、最近の指紋認証コンペティション(Fingerprint Verification Competition:FVC2004)の結果を示すことで、性能評価に関する論理的及び実際的な事項を調査する。FVC2004は本稿の著者らにより開催された。このコンペティションは、最新の興味深いパターン認識アプリケーションの評価と、指紋に基づいたバイオメトリクスシステムの明確な比較のための、新しい共通のベンチマークの確立を目的としている。FVC2004は、評価者の側で、評価者のハードウェアを用いて行われた、独立且つ厳密に監督された評価である。これにより、完全に試験を制御することができ、様々なアルゴリズムの計算時間を公正に比較することができる。以前の同様のコンペティション(FVC2000及びFVC2002)からの経験とフィードバックにより、FVC2004の組織と方法論は改善され、大学組織、及び民間組織からの非常に多数の応募を得ることができた(FVC2004では、67のアルゴリズムの応募を得た)。計算上の拘束を課することに起因したマッチング性能の損失を推定するために、新しい“軽量の”コンペティションカテゴリもFVC2004には含まれている。本稿では、データ収集と試験の要旨について論じ、結果の詳細な解析についても述べる。スコアレベルでのアルゴリズムの比較のための、単純だが効果的な方法を紹介する。この方法を用いることで、困難なケース(認証が困難な指紋画像)を分離することができ、またエラーの相関とアルゴリズムの“融合”を研究することができる。FVC2004により得られた多量の情報により、応募アルゴリズムをその特徴に基づいて体系的に分類し、これにより現在の指紋認識システムがどのように動作しているのかをより良く理解し、将来の有効な研究の方向付けを示すことができる。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


隆線の対応を利用した指紋歪曲
Fingerprint Warping Using Ridge Curve Correspondences

Arun Ross, IEEE, Sarat C. Dass , Anil K. Jain, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 1, pp. 19-30 , January 2006

Keywords: Fingerprints, nonlinear deformation, ridge curves, thin plate spline, index of deformation, minutiae pattern, template selection

指紋照合システムの性能は、指紋画像採取の際の非線形の歪みによる影響を受ける。この非線形歪みは、マニューシャ(minutiae points:指紋特徴点)や隆線を複雑に歪める。隆線の対応に基づいて、この指紋画像対の非線形歪みを推定する技術を示す。この非線形歪みは薄板スプライン(thin-plate spline:TPS)関数を用いて表される。幾つかの指紋画像がある特定の指から採取されている場合、この関数は、この特定の指に対する“平均”歪みモデル推定の助けとなる。そして、この推定平均歪みを利用して、指紋事前確率テンプレートを、入力指紋画像と照合するように変形させる。本稿で提案する隆線に基づく歪みモデルは、マニューシャパターンに基づく歪みモデルよりも、二つの指紋画像のより良い整合を与える。特定の指から採取された複数の指紋画像に基づく“最適な”歪みモデルを選択するために、歪みのインデックスを提案する。2週間に渡り、50の異なる指から採取された1600の指紋画像からなるデータに基づいた実験結果により、提案歪みモデルが照合性能を向上させることを示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2.5次元顔スキャンと3次元モデルのマッチング
Matching 2.5D Face Scans to 3D Models

Xiaoguang Lu, IEEE, Anil K. Jain, IEEE, Dirk Colbry, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 1, pp. 31-43 , January 2006

Keywords: Face recognition, 3D model, multimodal, surface matching, appearance-based.

二次元画像を用いた顔認識システムの性能は照明や姿勢(顔の向き)などの要因に依存する。任意の姿勢と照明に対してより高い頑健性を得るため、三次元の形状情報を利用する顔認識システムを開発している。異なる方位から撮られた、いくつかの2.5次元顔スキャンを統合することで、各被験者の三次元顔モデルを構築する。2.5次元の顔画像とは、3次元(x, y, z)の表面表現を簡単化したものであり、(x, y)平面の全ての点において、最大で1つの奥行き値(z方向)を持つ。顔のスキャンにより得られる二つの異なるモダリティ、即ち形状とテクスチャを利用・統合し、顔のマッチングを行う。本システムの認識エンジンは、2つのコンポーネント、即ち表面マッチングと見えに基づいたマッチングからなる。表面マッチングコンポーネントは、修正反復最近点(Iterative Closest Point:ICP)アルゴリズムに基づいている。見えに基づいたマッチングに用いられるギャラリーからの候補リストは、表面マッチングコンポーネントの出力に基づき、動的に生成される。これにより見えに基づいたマッチング処理における複雑性を軽減している。データベースに登録されている3次元モデルを用いて、姿勢と照明の変動を含む新しい見えサンプルを合成し、合成された顔画像を用いて判別部分空間解析を行う。これら二つのマッチングコンポーネントからのスコアを結合するために、重み付け平均ルールを適用する。200の三次元顔モデルと、様々な姿勢と幾つかの照明条件、表情の変化という条件下で取得された598の2.5次元独立テストスキャンからなるデータベースにおける実験の結果を示す。これらの結果により、本稿で提案するマッチングスキームの実現可能性を示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単眼画像からの人の三次元姿勢の復元
Recovering 3D Human Pose from Monocular Images

Ankur Agarwal, Bill Triggs

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 1, pp. 44-58 , January 2006

Keywords: Computer vision, human motion estimation, machine learning, multivariate regression.

我々は、単一の画像及び単眼画像系列からの三次元の人間の体の姿勢の復元のための学習に基づいた方法について述べる。我々のアプローチは、明示的な人間の体のモデルも、画像中の体のパーツに関する事前のラベル付けも必要としない。その代わり、画像シルエットから自動的に抽出された、形状記述子ベクトルに対する直接の非線形回帰により、姿勢を復元する。局所的なシルエット分割エラーに対する頑健性を高めるために、シルエット形状は形状コンテキストのヒストグラムにより符号化されている。我々は、幾つかの異なる回帰法、即ち、リッジ回帰、Relevance Vector Machine(RVM)回帰法、そしてSupport Vector Machine(SVM)回帰法を、それぞれ線形及びカーネルベースの方式について評価した。RVMによって、性能を犠牲にすることなく、かなり疎な回帰得ることができ、また、カーネルベースの方法は僅かではあるが価値のある性能向上をもたらす。奥行きと体の四肢パーツのラベル付けに関する情報の欠如は、単一シルエットからの三次元姿勢推定を、しばしば曖昧なものにする。この問題を扱うために、本稿で提案する方法は、新しい回帰的追跡フレームワークに組み込まれており、また、姿勢に関する曖昧性を軽減するために学習済み回帰値と共に以前の状態推定からのダイナミクスを用いている。結果として得られるシステムにより、長時間の画像系列の安定した追跡ができることを示す。実用性を高め、広い範囲の視点をより良く一般化するために、実際の人間の動きデータから再合成した画像に対して訓練を施す。体全体の姿勢の幾つかの表現に対して、本方法を例証する。独立だが類似したデータに対しては定量的に、そして実画像系列に対しては定性的に評価した。様々な歩く動作に対する平均角度誤差は4{¥hbox{-}}6^¥circであった。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像からの影の除去について
On the Removal of Shadows from Images

Graham D. Finlayson, IEEE, Steven D. Hordley, Cheng Lu, Mark S. Drew, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 1, pp. 59-68 , January 2006

Keywords: Shadow removal, illuminant invariance, reintegration

本稿は、影無し画像表現についての研究の進展をまとめる。まず光源とカメラに対する特定の仮定により1次元のグレースケール画像表現を得る。この画像は各画素におい光源不変である。結果として、この形式で表現される画像は、影無しであることを示す。次にこの1次元表現を等価な2次元色度表現に拡張する。この2次元表現においては、全ての画素に対して、共通の新たな光源を設定することが可能であることを示す。これにより、効率的に追加的に影無し特徴を備える、2次元画像表現を導出する。最後に3次元、即ちフルカラーの影無し画像表現をどのようにして復元するかを示す。これは最初に(二次元表現の助けを借りて)影のエッジを特定することで得られる。そしてエッジ修復法により、原画像エッジマップから、除去されるべき影によるエッジを除去する。この閾値処理されたエッジマップを再統合する方法を提案し、これにより、利用価値の高い3次元影無し画像を導出する。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般化固有値による、複数表面最近サポートベクトルマシン識別
Multisurface Proximal Support Vector Machine Classification via Generalized Eigenvalues

Olvi L. Mangasarian, Edward W. Wild

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 1, pp. 69-74 , January 2006

Keywords: Support vector machines, proximal classification, generalized eigenvalues

新しいサポートベクトルマシン(support vector machine:SVM)識別法へのアプローチを提案する。提案アプローチにおける各データセットは、平行でない別個の二つの平面のいずれか一つに隣接する。各平面は、片方のデータセットに最も近く、他方からはできるだけ遠くなるように生成される。単一のMATLABコマンドによって、各非平行隣接平面を、一般化固有値問題の最小固有値に対応する固有ベクトルとして得ることができる。非線形カーネルにより生成された二つの別個の非平行表面への近接性による識別は、二つの簡単な一般化固有値問題を与える。単純な例と多くの一般に公開されているデータセットにおける試験により、提案手法の効率性を示す。これらの例は計算時間及びテストセットの正確性の両面における提案アプローチの利点を示している。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変形可能な形状のためのシンボリックシグネチャ
Symbolic Signatures for Deformable Shapes

Salvador Ruiz-Correa, Linda G. Shapiro, IEEE, Marina Meila, Gabriel Berson, Michael L. Cunningham, Raymond W. Sze

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 1, pp. 75-90 , January 2006

Keywords: Three-dimensional object recognition and classification, deformable shapes, range data, numeric and symbolic signatures, Mercer kernel, scene analysis, craniosynostosis, craniofacial malformations.

形状を利用し、オブジェクトのクラスを認識することは、マシンビジョン分野における未解決の技術課題である。この問題では、有限の事前情報に基づいて、コンピュータシステムによる複雑な幾何情報の表現と一般化の能力が求められる。この問題に対する実用的なアプローチは特に実装が難しい。これは単に、関係するオブジェクトクラスの形状変化が一般的に大きいことのみならず、実世界のキャプチャに用いられる標準的なセンサー機器では、シーンの部分的なビューしか得られないことにも起因する。それゆえ興味の対象となるオブジェクトに付随する部分的な情報のみが得られる。本研究では、レンジデータ(奥行き情報)からの、変形可能な形状のクラスの認識のためのアルゴリズムフレームワークを開発する。我々のコンポーネントベースのアプローチの基本となるアイディアは、特定の三次元オブジェクトの認識を効果的に行えることがわかっている既存の表面表現を、我々の新しいシンボリックシグネチャ(symbolic-signature)表現を用いて、オブジェクトクラスの問題に一般化することである。しばしば特定の形状と結び付けられる数値的表現とは対照的に、この表現はオブジェクトの変形に対して頑健である。このアプローチに基づいて、レンジデータから様々なオブジェクトの形状クラスを認識し識別できるシステムを示す。シーン解析と医療診断における特定のアプリケーションのための、一連の大規模な実験において我々のシステムを例証する。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


指向性フレームを用いた高次元データからの複数部分空間の推定による、多体グルーピング
Multibody Grouping by Inference of Multiple Subspaces from High-Dimensional Data Using Oriented-Frames

Zhimin Fan, IEEE Computer Society, Jie Zhou, IEEE, Ying Wu, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 1, pp. 91-105 , January 2006

Keywords: Computer vision, motion segmentation, subspace constraints.

近年、多体グルーピングなど多くのコンピュータビジョン問題において、部分空間制約条件が広く利用されてきている。線形投影モデルの下では複数体と関連付けられる特徴点は、複数の部分空間に属する。既存の殆どの因子分解に基づいたアルゴリズムはオブジェクトを、独立した運動をしているオブジェクトを分割することができる。しかし、相関運動部分空間同士の交差がある場合、これら殆どのアルゴリズムは誤分割してしまうだろう。この制約を克服するために、本稿で我々は多体グルーピング問題を、高次元データ空間からの複数の部分空間の推定として定式化する。新しい頑健なアルゴリズムを提案する。これにより複数の部分空間構造を把握し、オブジェクトが独立か、相関するかにかかわらず、これらの部分空間に特徴点をクラスタリングすることで、複数オブジェクトの分割を行う。提案方法では、多次元座標フレームである、指向性フレーム(Oriented-Frame:OF)を各データ点と関連付け、これらの各点がどの部分空間構成に適するかを示す。部分空間同士の類似性に基づいて、部分空間展開と投票のための新しい仕組みを開発する。構造的不一致に基づいたはずれ値のフィルタリングにより、部分空間構成が明らかになる。分節した複数オブジェクトの運動などの相関運動を正確に分割できない既存の殆どの因子分解に基づいたアルゴリズムに比べ、提案方法は独立、及び相関両方の運動に対して頑健な性能を持つ。多くの制御実験と実際の実験により、提案方法の効果を示す。しかし現状のアプローチは透過運動及び、異なる次元の運動部分空間を扱うことができない。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


連続最大フローによる大域最小表面
Globally Minimal Surfaces by Continuous Maximal Flows

Ben Appleton, Hugues Talbot

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 1, pp. 106-118 , January 2006

Keywords: Partial differential equations, graph-theoretic methods, edge and feature detection

本稿では、画像分割と奥行き情報再構築のための大域最小曲線及び表面について述べる。我々は新しい偏微分方程式系により連続最大フローをシミュレートする解法を示す。既存方法は、格子にバイアスされるか(グラフベースの方法)、非最適(動的輪郭及び表面)のいずれかである。この解法により、等方性速度拘束条件下における理想流体のフローをシミュレートする。速度拘束条件は画像データから導出されるメトリクスにより定義される。補助ポテンシャル関数を用いて偏微分方程式系を作成する。このアルゴリズムが、収束値として大域最大連続フローを与えることが証明されている。大域最小表面が補助ポテンシャルから自明に取り出せるであろうことも証明されている。小さいオブジェクトに対する最小表面法の基底についても取り上げる。フローシミュレーションのための効率的な実装法を示す。大域最小表面アルゴリズムを、ステレオマッチングと同様に、二次元と三次元の分割にも適用する。二次元分割実験において、既存の平面画像の最小輪郭アルゴリズムと合致する結果を得た。三次元データにおける分割実験とステレオマッチングの結果により、新しいアルゴリズムが頑健でグリッドバイアスの影響を受けないことを示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


体積画像における最適分割:グラフ理論的アプローチ
Optimal Surface Segmentation in Volumetric Images-A Graph-Theoretic Approach

Kang Li, IEEE, Xiaodong Wu, IEEE, Danny Z. Chen, IEEE, Milan Sonka, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 1, pp. 119-134 , January 2006

Keywords: Optimal surface, medical image segmentation, graph algorithms, graph cut, minimum s{¥hbox{-}} t cut, geometric constraint.

体積データにおけるオブジェクト境界を表す大域最適な表面の効率的な分割は、多くの医療画像解析アプリケーションにおいて重要且つ挑戦的な課題である。我々は、同時に複数の相互に作用する表面を検出できる最適表面検出法を開発してきた。この検出法においては、各表面に対してデザインされたコスト関数及び、表面の平滑性と相関を定義する幾つかの幾何的拘束条件によって、最適性がコントロールされる。本方法は、表面分割問題を、導出された弧により重み付けされた有向グラフにおける最小s{¥hbox{-}}tカットを計算する問題に変換して解いている。提案アルゴリズムは、低次多項式時間の複雑性を持ち、計算効率が高い。300を超える合成体積画像、及び異なるサイズのプレキシグラス(訳者注:特殊アクリル樹脂)チューブの72のCTスキャンデータセット、そして様々な画像モダリティの10の医療画像に対する大規模な実験により、提案アルゴリズムを検証した。全てのケースにおいて、提案アプローチは高精度な結果を示した。我々のアプローチは、より高次元の画像分割に対しても容易に拡張可能である。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


通常の顔画像及び表情顔画像からの、顔標認点(Facial Landmark)の特徴に基づいた検出
Feature-Based Detection of Facial Landmarks from Neutral and Expressive Facial Images

Yulia Gizatdinova, Veikko Surakka

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 1, pp. 119-134 , January 2006

Keywords: Computing methodologies, image processing and computer vision, segmentation, edge and feature detection.

顔画像からの特徴に基づいた標認点検出法を設計した。この方法は、2つの解像度レベルにおける方向エッジの検出とエッジマップ構築に基を置いている。特徴エッジパターンを示すエッジ領域が、標認点の候補となる。本方法により目検出における表情不変性を確実にしている。幸福な表情と嫌悪の表情の場合に、鼻と口検出の精度が低下する。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


分子フィルタのための整合性検証
Consistency Checks for Particle Filters

F. van der Heijden, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 1, pp. 140-145 , January 2006

Keywords: Particle filtering, consistency checks, modeling errors, fault detection, model validation.

不整合な分子フィルタは、(統計的な意味において、)このフィルタの元になるモデルによる予想より、大きな推定誤差を持つ。不整合な振る舞いの検出を可能とする二つの試験的変数を導入する。これらの変数の統計的特性を解析する。実験により、これらの変数の使用が不整合検出に対して適切であることを確認する。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


blind deconvolutionアプローチを用いた、複雑性を省いた回転不変テクスチャ識別
Reduced Complexity Rotation Invariant Texture Classification Using a Blind Deconvolution Approach

Patrizio Campisi, IEEE, Stefania Colonnese, Gianpiero Panci, Gaetano Scarano, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 1, pp. 145-149 , January 2006

Keywords: Statistical texture model, texture analysis, texture classification, feature moments.

本稿では、blind deconvolutionアプローチ(訳者注:ノイズモデルを特定せずにノイズを除去するアプローチ)を利用したテクスチャ識別プロシージャを示す。特にテクスチャは二値刺激により駆動される線形システムの出力としてモデル化される。二値刺激の二次元自己相関関数(autocorrelation function:ACF)の、一次元断面から計算された特徴により、回転不変識別のためのテクスチャ表現ができることを示す。これにより二次元識別問題は、より簡単な一次元問題として解くことが可能となる。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像特徴抽出における、色顕在特徴(Color Saliency)ブースティング
Boosting Color Saliency in Image Feature Detection

Joost van de Weijer, Theo Gevers, Andrew D. Bagdanov

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 1, pp. 150-156 , January 2006

Keywords: Image saliency, feature detection, image statistics, color imaging.

顕在特徴抽出の目的は、画像中の特徴的な局所イベントを見つけることにある。顕在特徴は一般的に、画像の局所特異構造とは区別される。それらは局所的隣接関係における形状の顕在特徴に焦点を合わせている。これらの検出器の殆どは輝度に基づいた方式であり、顕在画像特徴を決めるための、局所色情報による弁別能を完全に無視するという不利点を持つ。カラー画像からの顕在特徴点検出の可能性をフルに活用するためには、形状弁別能に加えて、色弁別能も考慮するべきである。本稿では色弁別能を、顕在特徴検出の設計に取り入れる。色顕在特徴ブースティングと呼ばれるアルゴリズムは、色画像導関数の統計量の解析に基づいている。色顕在特徴ブースティングは、既存の特徴検出器に簡単に適応できるように、高い汎用性を持つように設計されている。実験結果は、色顕在特徴を用いることで、利用可能な情報量が実質的に増加することを示している。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


訓練データ選択を伴うベクトル量子化学習
Learning Vector Quantization with Training Data Selection

Carlos E. Pedreira

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 1, pp. 157-162 , January 2006

Keywords: Learning vector quantization LVQ, pattern classification, clustering, data selection, neural networks.

本稿ではLVQプロトタイプの学習のための、訓練データ点のサブセットを選択する方法を提案する。主な目的は、誤識別エラーを提言することで、プロトタイプをより適切な位置で収束させることである。本方法は、他のクラスプロトタイプに分類されるリスクのある点により構成されるアップデートセットを選択する。入力属性の様々なレベルの関連性を構築するために、ユークリッド幾何の代わりに重み付け平均を、提案方法論と関連付ける。管理実験とWeb上で利用可能なデータセットにおいて、本手法を実装した。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


関節のあるオブジェクトの姿勢回復:二つの事前、及び事後拘束条件適用法の比較
Recovering Articulated Pose: A Comparison of Two Pre and Postimposed Constraint Methods

Teofilo E. de Campos, Ben J. Tordoff, David W. Murray, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 1, pp. 163-168 , January 2006

Keywords: Visual tracking, articulated objects, motion constraints.

関節のあるオブジェクトの追跡中に拘束条件を適用する2つの方法の性能比較を行った。第一の方法は運動上の拘束条件を追跡中に事前適用する。つまりこれは最小自由度を用いることになる。第二の方法は、追跡完了後に拘束条件を適用し、これにより最大自由度を用いる。これら二つの方法は定式化が大きく異なるにもかかわらず、同一の姿勢変化を再現する。計算速度とアルゴリズムの簡潔性及び頑健性に関する更なる比較を行う。この簡潔性と頑健性についての考察が、最も意味深長である。実験結果は、組み込み拘束条件の使用が、関節のあるオブジェクトの追跡に適していることを示している。事後の拘束条件適用が、関節のあるオブジェクト(もしくは剛体オブジェクト)の接触及び切断を含む問題に最も適している。このような場合においては、高速の追跡性能試験において、拘束条件の有無が指定できることが望ましい。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.28, No.2


ハイパースペクトル法によるターゲット検出のためのカーネルマッチングによる部分空間検出器
Kernel Matched Subspace Detectors for Hyperspectral Target Detection

Heesung Kwon, IEEE, Nasser M. Nasrabadi, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 2, pp. 178-194 , February 2006

Keywords: Target detection, subspace detectors, matched signal detectors, kernel-based learning, hyperspectral data, spectral mixture models, nonlinear detection.

本論文では高次元特徴量空間で定義される部分空間混合モデルに基づく部分空間照合検出器(MSD)のカーネルの実現を目指す。MSDのための線形部分空間混合モデルは、最初高次元特徴量空間で再定式化され、その後、本モデルのために、対応する一般化尤度比テスト(GLRT)の表現が求まる。特徴量空間における部分空間混合モデルおよび対応するGLRT表現は、元の入力空間中の非線形GLRT表現を有する非線形部分空間混合モデルに等価である。特徴量空間におけるGLRT表現の困難さを述べるために、カーネル固有ベクトルを使ったGLRT表現をカーネル化し、同時に特徴量空間のドット積(内積)がカーネルで暗黙のうちに計算可能であるような仕掛けをカーネルに取り込む。提案されたカーネルに基づく非線形検出器は、いわゆるカーネル合致部分空間検出器(KMSD)、はいくつかのハイパースペクトル画像に適応し、興味の対象を検出する。KMSDは、いくつかの人工的データや実際のハイパースペクトル画像に適用し、従来のMSD法に比べて優れた性能を示した。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3D空間形状モデルを利用した湾曲した文書画像の復元
Restoring Warped Document Images through 3D Shape Modeling

Chew Lim Tan, IEEE, Li Zhang, Zheng Zhang, Tao Xia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 2, pp. 195-208 , February 2006

Keywords: Document image restoration, document image analysis, shape from shading, image warping, image distortion, OCR improvement.

厚手の書籍をスキャンした画像には、しばしば2種類の歪が見られる。1つは、綴じ骨に沿っての陰と、この陰領域での湾曲である。本論文では、スキャンした文書画像の陰影情報から本の表面の3D形状を発見する効率的復元法を提案する。技術的観点から、この、陰影から形状を予測する問題の実用化には、1)動く光源の近似、 2)ランベルト反射、 3) 不均一反射率分布、4)文書のゆがみ、で特徴付けられる。これらすべてを考慮して、書籍表面形状を復元するための実用的スキャニング条件のための実用的モデルを作る。(3D幾何学的モデルと3D光学的モデルから成る)次に、この形状を利用して陰影復元法と湾曲復元法に基づき、スキャンした書籍画像を復元する。最後に、復元結果と実際の形状を比較し、復元の評価をする。これには、OCRによる、復元前と後の評価も含む。実験の結果、幾何学的歪と光学的歪はほとんど除去でき、OCR結果は顕著に改善された。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


チャネル平滑化:低レベルのシグナル特徴量の効率的でロバストな平滑化
Channel Smoothing: Efficient Robust Smoothing of Low-Level Signal Features

Michael Felsberg, Per-Erik Forssen , Hanno Scharr, IEEE Computer Society

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 2, pp. 209-222 , February 2006

Keywords: Robust smoothing, channel representation, diffusion filtering, bilateral filtering, mean-shift, B-spline, orientation smoothing.

本論文では、低レベルの信号特徴量のロバストな平滑化を実装するため、新規で効率的な方法であるBスプラインチャネル平滑化法を紹介する。本手法は3段階から成っている:信号特徴をチャネルに符号化すること、および、複号化。もし、チャネル生成に2次Bスプラインを使うのであれば、チャネルの線形平滑化は信号特徴のロバストな平滑化と同等であることを示す。Bスプラインチャネルからの線形複号化によってロバストな誤差基準が導け、これはTukeyの二重誤り基準(biweight error norm)に大変よく似ている。本手法は、他の3種のロバストな平滑化手法:非線形拡散法、バイラテラルフィルタリング、平均値シフトフィルタリング、と、理論的にも2Dの方向性のあるデータの場合とも比較された。チャネル平滑化は4つの面で優れていることが分かった。計算量が少ない、実装化が容易、極小地ではなく全体の最小値を選ぶ、方向性のある空間のような非線形空間にも適用できることである。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多クラス識別問題に関する、クラス平均と共分散判別情報に基づく線形特徴量抽出
A Linear Feature Extraction for Multiclass Classification Problems Based on Class Mean and Covariance Discriminant Information

Pi-Fuei Hsieh, Deng-Shiang Wang, Chia-Wei Hsu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 2, pp. 223-235 , February 2006

Keywords: Alignment, artifact removal, bias removal, congealing, clustering, correspondence, density estimation, entropy, maximum likelihood, medical imaging, magnetic resonance imaging, nonparametric statistics, registration, unsupervised learning.

多クラス識別問題に、パラメトリックな線形特徴量抽出法を提案する。この提案手法には2つの骨格があり、互いに識別情報の利用において、補完関係にある。一対ごとの近似的精度基準(aPAC)と、共通平均特徴量(CMFE)が選ばれ、この値によってクラス平均とクラス共分散それぞれの、識別度情報を得る。線形判別関数(LDA)の代わりにaPACを利用すると、LDAの特徴を保持しながら、LDAで導入される距離を過大に強調する問題点が解決されることになる。2つの異なる種類の解決法を直接接続して適用することによる非最適性問題を軽減するために、それらの効率に基づいて特徴量をソーティングし、併合する方法もあるだろう。通常、特徴量に依存した、識別誤り率を評価するための演算効率は良くない。従って、張った木に基づく(spanning-tree-based)パラメトリックな識別精度推定器をaPAC と CMFEの結合した媒介手段とする高速な手法を開発した。全体の枠組みはパラメトリック的である。これによって、サンプルに基づく手法で支払う膨大な計算量を減少することが出来る。実験によれば、この提案手法は実データやシミュレーションデータの両方に満足できる結果をもたらした。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


連続的結合配列によるデータ駆動型画像モデル
Data Driven Image Models through Continuous Joint Alignment

Erik G. Learned-Miller

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 2, pp. 236-250 , February 2006

Keywords: Alignment, artifact removal, bias removal, congealing, clustering, correspondence, density estimation, entropy, maximum likelihood, medical imaging, magnetic resonance imaging, nonparametric statistics, registration, unsupervised learning.

本論文はデータからcongealing(凝固)と呼ばれる一連の画像のモデル化手法を紹介する。このアイデアは、画像集合を元にして、既知の変動軸に沿って可変性を出来るだけ抑え、画像集合ができるだけ類似するようする手法である。この手法は乱雑な変数を除くことに有効で、例えば、手書き数字からアフィン変形や、MRI画像中の不要な偏った場を除くのに使われる。潜像画像の分離とモデル化に加え、乱雑な変数の無い画像で、乱雑な画像のモデル化が可能となる。もし、乱雑な変数の分布がクラス間で共有されると、1つの課題で学習した知識と、他の課題の知識が共有され、学習を効率的にすることが出来る。この過程を実証するために、各手書き文字当たり1つのモデルだけを有する手書き数字認識器を作る。更に手書き文字の認識応用以外に、MRI画像の偏り除去法について詳述する。以前の手法に比べ、我々は別個でノンパラメトリックなモデルを各画素の強度値に適用できる。これによって、異なる患者のMR画像を、偏りなく利用することができる。画像中の強度分布に対する弱い仮定が存在するに過ぎない。数字やMRIへの応用に加え、このcongealing法の他の可能性を論じ、この手法のロバスト性や整合性についての実験を報告する。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


内部画像類似度を利用した、注視に基づく動的視覚探索:そのアルゴリズムと限界
Attention-Based Dynamic Visual Search Using Inner-Scene Similarity: Algorithms and Bounds

Tamar Avraham, Michael Lindenbaum

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 2, pp. 251-264 , February 2006

Keywords: Computer vision, scene analysis, feature representation, similarity measures, performance evaluation of algorithms and systems, object recognition, visual search, attention.

シーン中に多数のオブジェクトが存在する場合の認識には、視覚的探索が要求される。このような場合には、網羅的な逐次探索は避けたい。この研究は、内部シーン(部分画像)の動的探索の枠組みを提案する。複数の候補がある場合、(部分画像)、類似画像が多く存在すると、より多くの画像が同一であると判断されるであろうと仮定する。この仮定は注目の順位を決めるために利用する。決定論的に実行するか、あるいは、確率論的に実行するかにどちらにしても、両方の場合が考察される。決定論的手法では、Kolmogorovの探索課題の困難さを定量化したイプシロン被覆法に似た類似度を推薦する。この尺度は、すべての探索アルゴリズムの効率の限界を示し、この束縛に合致する単純なアルゴリズムを推薦する。確率論的手法では、関連するランダム変数の集合として、モデル候補を同定し、線形推定に基づく探索手続きを導出する。いくつかの実験によって、統計的特徴や、探索アルゴリズムや、限界が評価され、妥当性が確認された。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3変数Bスプライン関数を利用した体積データ集合のグローバルなセグメンテーションと曲率解析
Global Segmentation and Curvature Analysis of Volumetric Data Sets Using Trivariate B-Spline Functions

Octavian Soldea, Gershon Elber, IEEE, Ehud Rivlin, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 2, pp. 265-278 , February 2006

Keywords: Gaussian and mean curvature, symbolic computation, global analysis, segmentation.

本論文は内部の詰まったボリューム画像を凸または凹表面の等表面、平坦面、円筒面、鞍(サドル)状の等表面にグローバルにセグメンテーションする方法を紹介する。このとき、等表面レベルの値には依存しない。この提案法は3変数Bスプラインボリューム表現された画像をグローバルに計算し、その範囲を求め、ガウス曲率や平均曲率を全ボリュームデータ集合について解析する。この手法によって、与えられたボリュームスカラー場のための新規な微分スカラー場を導くことが出来、その結果は他の微分特性に容易に適合させられる。更に、この手法によって、基本的な部品の同定を目的にしたデータ集合を対象とした、もっと精密で正確なセグメンテーションのための基礎が確立される。この提案手法は順次、連続関数を利用するので、正確でエイリアシングの影響を受けない。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


前景と陰影部のセグメンテーションのための動的条件付き確率場モデル
A Dynamic Conditional Random Field Model for Foreground and Shadow Segmentation

Yang Wang, IEEE, Kia-Fock Loe, Jian-Kang Wu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 2, pp. 279-289 , February 2006

Keywords: Conditional random fields, dynamic models, foreground segmentation, shadow detection.

本論文では動的条件付き確率場(DCRF)モデルを、室内のビデオ画像で前景オブジェクトと動く陰影の切り出し(セグメンテーション)に対して提案する。画像系列が与えられているとき、連続する各セグメンテーション場の時間依存性と空間依存性は、条件付確率場(CRF)に基づいて、動的統計的枠組みによって統合される。効率的な近似フィルタリングアルゴリズムがこのDCRFモデルのために導かれ、過去の観察済みの画像から、回帰的にセグメンテーション画像を推定した。この前景と陰影のセグメンテーション法は強度特徴量と勾配特徴量の両方を統合している。更に、背景や陰影や勾配のモデルが、非定常的な背景プロセスのために適応的に更新される。実験によると、本手法は単眼撮影の濃淡ビデオ画像であっても、移動オブジェクトとそれが作る影を正確に検出することが出来た。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


レイヤーの線形重ね合わせによるステレオマッチング
Stereo Matching with Linear Superposition of Layers

Yanghai Tsin, IEEE, Sing Bing Kang, IEEE, Richard Szeliski, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 2, pp. 290-301 , February 2006

Keywords: Stereo matching, layer extraction, reflection, transparency, plane sweep.

本論文では非ランベルト(non-Lambertian)条件下でのオブジェクトのステレオマッチングについて述べる。ここでは画像合成は異なる深さのレイヤーの加算モデルを利用する。このようなレイヤーが存在すると、従来のステレオマッチング法は適用できない。そこで、各成分レイヤーの深さと色を推定するいくつかの手法を開発した。深さの仮定は多数のペアを作るため、各レイヤーごとに入れ子になった面を走査した。各深さの対ごとに、空間—時間差分を使ってマッチング計算が行われた。そして、両レイヤーの解を求めるためグラフカットによって最適化した。この後に繰返しカラー更新アルゴリズムを実施し、これが収束することが分かった。我々のアルゴリズムは、合成画像に対しても画像系列に対しても、深さとカラーの両方を復元できた。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


滑らかな曲面の表面の外形から構成されるロバストな構造と動き
Robust Structure and Motion from Outlines of Smooth Curved Surfaces

Yasutaka Furukawa, Amit Sethi, IEEE, Jean Ponce, IEEE, David J. Kriegman, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 2, pp. 302-315 , February 2006

Keywords: Image processing and computer vision, motion, shape.

本論文は、はっきりした滑らかな曲面を持つ物体を、連続するフレーム中にカメラで外形を撮影したとき、カメラの動きを推定する問題について述べる。この意味において、オブジェクトの外形に投影される表面上の点は、視点によって変化するし、同一物体の2つの外形の真の対応関係は、視線が表面の接平面内で交わる前線点列(シルエットを構成する点列、frontier points)の投影点である。これに代わり、この関連がわかれば、エピポーラ幾何学は容易に予想される。画像系列から検出された見かけの輪郭が与えられたとき、RAMSACによるロバストな手法と、投票戦略を提案し、多視点エピポーラ幾何学の冗長性を課することで、矛盾の無い前線点列投影(frontier point projections)位置と同時にカメラの位置を算出する。本提案手法は原則的に正射影、弱透視的、アフィン投影モデルに応用が可能である。6つのデータ集合を実証データ(グランドトゥルース)として定量的比較用に用意し、正射影条件を満たす9連続画面に対する実験を行った。すべての画像に対する視覚的な殻が算出され、定量評価された。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


歩行エネルギー画像を使った個人認識
Individual Recognition Using Gait Energy Image

Ju Han, IEEE, Bir Bhanu, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 2, pp. 316-322 , February 2006

Keywords: Gait recognition, real and synthetic templates, distortion analysis, feature fusion, performance evaluation, video.

本論文では、歩行による個人の認識のための人の歩行特性を特徴づけるために、歩行エネルギー画像と呼ばれる新規な空間-時間歩行表現法を提案する。訓練用テンプレートが欠如しているという問題点を述べるため、合成や実測のテンプレートによる歩行特徴量を組み合わせた新規な人間の認識法を提案する。これは直接訓練用のシルエット系列から実画像のテンプレートを算出する一方、シルエットの変形をシミュレーションして、合成テンプレートを生成する。実テンプレートや合成テンプレートからの効率的な特徴量学習するために、統計的手法を採用した。USF HumanID Databaseによって、本GEI法による歩行認識と他の歩行認識法の比較を行った。実験の結果、本GEI法は個人認識のための歩行表現には効果的で効率的であり、他の公表されている歩行認識手法に比べて高い効率を達成した。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ウェーブレット近似によるアフィン不変形状表現関数
Wavelet Approximation-Based Affine Invariant Shape Representation Functions

Ibrahim El Rube', IEEE, Maher Ahmed, Mohamed Kamel, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 2, pp. 323-327 , February 2006

Keywords: Wavelet transform, shape representation, affine transformation, invariants.

本論文では、新規なウェーブレットを利用した、形状のアフィン不変関数を提案する。以前の表現手法と異なり、本方法では、関数を取得するためには近似係数しか利用しない。その一つの関数例はたった1つのウェーブレット変換によって導かれ;他の関数は2つの異なるウェーブレットファミリーからの2つの異なるウェーブレット変換で計算された。以前導いた詳細特徴量に基づく不変表現関数の欠点は、スケールレベルが詳細に成るに従ってノイズに弱くなり、従って利用できるレベルの数は限られることである。本論文での実験結果から、本提案手法は、詳細特徴量に基づく方法より、より安定であり、ノイズにはより鈍感であることだ。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


表面再構成のための間接表現メッシュ
Implicit Meshes for Surface Reconstruction

Slobodan Ilic, Pascal Fua

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 2, pp. 328-333 , February 2006

Keywords: Computer vision, reconstruction, surface fitting, modeling, optimization.

変形可能な3Dモデルは三角メッシュのような従来の陽表現でも、あるいは間接表面でも可能である。明確な陽表現は広く受け入れられているが、これは変形が用意であるだけでなく描写にも適しているからであるが、これをフィットさせるには微分不可の距離関数を最小化する作業が入る。これと対照的に、表面の陽表現には、微分可能な代数的距離関数の最小化を利用できるが、意味のある変形や描写は困難である。ここで、両者の特長を組合せた手法を提案する。これはウェブから取得したような、完全に任意の三角メッシュを調整し、精密に近似する表面の間接的表現に変換し、これと一緒に連動して変形することができる。これによって、フィッティング目的や、相互にやり取りしながら、アニメーション目的のための標準の変形ツールとして人々が快適に利用するための間接表面の魅力的な特性を有する自動化アルゴリズムが可能となる。本手法の応用として、顔、首、肩や耳を含む人間の上半身のモデル化を、ノイズの多い画像ステレオとシルエット画像から実証する。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.28, No.3


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.28, No.4


テキスト文書のための距離学習
Metric Learning for Text Documents

Guy Lebanon

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4, pp. 497-508 , April 2006

Keywords: Distance learning, text analysis, machine learning.

機械学習における多くのアルゴリズムは、入力空間における与えられた距離尺度に依存している。暗黙で利用されているユークリッド距離のような尺度と異なり、与えられたデータに基づく尺度を利用する方がのぞましい。我々は、与えられた微分多様体と点集合に関連するリーマン距離を学習する問題を考察する。この問題への取り組みとして、パラメータ族から距離を選ぶことも含まれるが、これは、与えられた点のデータ集合の逆体積を最大化することに基づいている。統計的観点から、これはリーマンの体積要素に逆比例する確率が割り当てられるような最大尤度に関係している。我々は詳細に多項単体上での距離学習について論じるが、ここでは距離の候補はリー群の変換によってフィッシャー情報量の引き戻し(pull-back)距離となる。これをテキスト文書の識別に利用した場合、結果として得られる測地距離は、tfidf cosineの類似度尺度に似ているがこれを凌駕する。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


イメージセグメンテーションのためのグラフ分割能動輪郭生成
Graph Partitioning Active Contours (GPAC) for Image Segmentation

Baris Sumengen, IEEE Computer Society, B.S. Manjunath, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4, pp. 509-521 , April 2006

Keywords: Curve evolution, active contours, image segmentation, pairwise similarity measures, graph partitioning.

本論文では新タイプの変動型セグメンテーションコスト関数と、これに付随する能動的輪郭抽出法を紹介する。これは画素対の相違度を利用する考えに拠っている。最小化問題の解として、グラフ分割能動輪郭生成法(GPAC)という新規な曲線進化の枠組みを紹介する。グローバルな特長量を利用して、このようなコスト関数の理想的な最小結果を生成することが可能である。新規で効率的実装法も併せて紹介する。我々の実験によると、GPACによる解は、自然画像に有効で、計算量も少ない。中間調画像、カラー画像、テクスチャー画像の処理結果は有望なセグメンテーション結果を与えてくれた。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


連続隠れマルコフモデルとその能動学習への応用のための変動ベイズ法
Variational Bayes for Continuous Hidden Markov Models and Its Application to Active Learning

Shihao Ji, Balaji Krishnapuram, IEEE, Lawrence Carin, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4, pp. 522-532 , April 2006

Keywords: Variational Bayes (VB), continuous hidden Markov models (CHMMs), active learning (AL), query by committee (QBC), maximum expected information gain (MEIG), error-reduction-based active learning.

本論文では連続的隠れマルコフモデルの学習に変動ベイズ(VB)の枠組みを提案し、能動的学習中にVBの枠組みを調べる。連続的隠れマルコフモデルの点推定を与えてくれる最大尤度訓練や最大事後確率訓練と異なり、VB法による訓練はモデルパラメータの全事後確率が得られる。この性質は小さな訓練集合の場合は特に重要であるが、その理由は学習したモデルの精度に関する確信度が得られるからである。これを能動的学習に利用することによって、モデルパラメータの不確実性を減少させるような情報量の大きい知識を有する特長ベクトルを有するラベルを選択することができる。これらの能動的学習アルゴリズムの3つの例が考察される;1)ラベル付けの識別変動が最小化するようなデータの選択をゴールとする委員会による質問(QBC)方式, 2)モデルパラメータのエントロピーを減少させるために最大期待情報量のデータを有するラベルを探索する方式, 3)テストデータ上で、識別誤差を最小化するため、誤差最小化方式。合成データと実在データに関する実験結果を示す。これらすべての能動的学習法は、ランダムにサンプリングする従来法に比べ、大幅にラベル付けコストを減少させることができた。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


低次元k-mean法クラスタリングに超四分木を使った遺伝的アルゴリズム
A Genetic Algorithm Using Hyper-Quadtrees for Low-Dimensional K-means Clustering

Michael Laszlo, Sumitra Mukherjee, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4, pp. 533-543 , April 2006

Keywords: k-means algorithm, clustering, genetic algorithms, quadtrees, optimal partition, center selection.

k-mean法は広く利用されているクラスタリングアルゴリズムであるが、それは計算効率が優れていることによる。いま、d次元空間にn個の点と、クラスター数kが与えられたとき、k-mean法はサンプル点と最も近いk個のクラスター中心とのユークリッド距離の2乗和が最小になるようにクラスターを選択する。しかし、このアルゴリズムは初期中心位置の選択に敏感であり、グローバルな最適条件から外れた分割結果に収束する可能性がある。我々は遺伝的アルゴリズム(GA)を使って、このk-mean法の中心を進化させ同時に、kに近い値の良好な分割を与えることを示す。中心集合は、データ上に構成された超四分木を使って表現される。この表現を利用して、良好な初期分布中心を生成し、部分木を交換する操作で良好な部分木を選択的に子孫に継承することで、新規な遺伝子交差演算を実施する。実験結果によれば我々のGAは既知のグローバルな最適条件を見つけ、多くのシミュレーションデータ集合に対して良好な解を見つけた。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


識別における生成モデルの選択
Selection of Generative Models in Classification

Guillaume Bouchard, Gilles Celeux

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4, pp. 544-554 , April 2006

Keywords: Generative classification, integrated likelihood, integrated conditional likelihood, classification entropy, cross-validated error rate, AIC and BIC criteria.

本論文は、教師付き識別のための生成モデルの選択の問題に関している。モデル選択に関する古典的基準は、モデルの合致度合いを評価することであり、識別誤り率低く抑えることではない。ここで新規な基準であるベイズエントロピー基準(BEC)を提案する。この基準は累積された識別エントロピーの最小値によるモデルを考慮する。計算時間のもっとかかる交差検証誤りの、興味ある代替案でもある。BEC基準の漸近的振る舞いについて、示されている。シミュレーションデータだけでなく、実データでの計算実験ではBECの効率は、BIC基準よりは優れており、交差検証基準と類似した効率を発揮するであろう。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


疎と密のオブジェクト認識のためのまばらな表現
Sparse Representation for Coarse and Fine Object Recognition

Thang V. Pham, Arnold W.M. Smeulders, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4, pp. 555-567 , April 2006

Keywords: B-spline, Gaussian derivatives, matching pursuit, multiscale, PCA, polynomial approximation, sparse representation.

本論文は、まばらで多重スケールのオブジェクト表現法を提案する。これは、非常に大きなガウス差分基底関数の辞書から選択することでオブジェクトの外形を捕まえる。学習手続きはマッチング追従アルゴリズムの結果として得られる。一方、認識は基底への多項式近似を使うことから、画像マッチング問題は多項式評価の問題に転換される。この手法は、オブジェクト間の疎な認識に適しているが、基底をもっと増やすことで、オブジェクトのポーズまで詳細に認識することもできる。PCAによる共通表現の利点は、認識のためのサンプル点を保持することが不要であるし、新規なオブジェクトを追加するとき、他のオブジェクトの再学習が不要であること、重要なことであるが、オブジェクト探索のために、オブジェクトを複数の場所でスキャンするする必要としないで新しい表現が容易に得られることであり、この点は各場所におけるPCA投影法と異なる。COIL-100データ集合に対する実験結果は、実時間で高い認識率を実証した。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部分オブジェクト認識のためのshapemesヒストグラム投影法
Shapeme Histogram Projection and Matching for Partial Object Recognition

Ying Shan, IEEE, Harpreet S. Sawhney, IEEE, Bogdan Matei, IEEE, Rakesh Kumar, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4, pp. 568-577 , April 2006

Keywords: Shapeme histogram, spin image, Gibbs sampling, feature saliency, object recognition, Bayesian analysis.

署名の形状やプロトタイプの形状のヒストグラムはshapemesと呼ばれているが、これは2D/3D形状マッチングの研究に有効に使われてきた。このshapemesヒストグラムの考え方を、完全なモデルのオブジェクトデータベースから、部分的に見える問合せオブジェクトを認識する問題に拡張する。各モデルオブジェクトの表現を、shapemesヒストグラムの集合とし、問合せヒストグラムをこれに合致させるために2つのステップを経る:1)問合せヒストグラムを、全モデルのshapemesヒストグラムが張る部分空間上に制限付き投影し、2)問合せヒストグラムと投影ヒストグラムの合致尺度を計算する。第1のステップは制約付き最適化問題として定式化可能であり、サンプルアルゴリズムで解くことができる。第2のステップではベイズ統計の枠組みで定式化され、間接激特長選択プロセスは、shapemesヒストグラムの識別能力改良として実施できる。243個のモデルデータから成る距離画像部分オブジェクトに適用した結果、もともとのshapemesヒストグラム法や、他の方法に比べ、優れた効率を示した。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオオブジェクト識別のための、一対制約による識別学習の枠組み
A Discriminative Learning Framework with Pairwise Constraints for Video Object Classification

Rong Yan, IEEE, Jian Zhang, Jie Yang, Alexander G. Hauptmann

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4, pp. 578-593 , April 2006

Keywords: Video object classification, pairwise constraints, discriminative learning, margin-based learning.

ビデオオブジェクト識別において、ラベルの付けられたデータが十分な数存在しない場合、一つの解決法は2つの例を一対用意し、これが同一クラスに属すか否か、の関係を調べることである。本論文では、一対条件による学習法を、従来のマージンを利用した学習法に取込んだ、識別学習法を提案する。距離の尺度を変えたり、内在する本質的なデータの分布推定をより良く学習する、従来手法の代わりに、本提案手法は決定境界を直接学習するため、モデル推定が少なくて済む。更に、提案手法は、ラベル付きデータでも一対であっても、両方に対して統一した枠組みで対応できる。本研究では、凸と非凸の2つの一対損失関数ファミリーを調べる。その後、hinge(蝶番のように、中央が凹んだ関数)損失関数とlogistic損失関数に接続することで、3種の一対学習アルゴリズムを得られる。この提案アルゴリズムは、2つの調査用ビデオデータ集合を利用した人間の同定課題によって評価することができる。実験によると、一対学習アルゴリズムは、基礎となるラベル付きデータだけを利用した方法や、その他の2つの同数の対を利用した一対の制約を課したアルゴリズムと比較してはるかに優れている。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オブジェクトのカテゴリーを一回で学習
One-Shot Learning of Object Categories

Li Fei-Fei, IEEE, Rob Fergus, IEEE, Pietro Perona, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4, pp. 594-611 , April 2006

Keywords: Recognition, object categories, learning, few images, unsupervised, variational inference, priors.

オブジェクトのカテゴリーの視覚モデルを学習するには数百数千の学習例が必要である。我々はカテゴリーに関する多くの情報をたった1枚、または、数枚の画像から学習することが可能であることを示す。その鍵は、ゼロから学習するのではなく、以前学習したカテゴリーが如何に異なっていたとしても、その知識を利用することである。このアイデアをベイズ理論で実装してみる。オブジェクトカテゴリーは確率的モデルで表現される。事前知識はこれらモデルのパラメータ上に確率密度関数として表現される。このオブジェクトカテゴリーの事後モデルは、一回かそれ以上の観測によって、事前モデルを更新することで得られる。101の多様なオブジェクトカテゴリーのデータベースにこのアルゴリズムをテストするために簡単に適用してみた。我々のベイズを実装して学習したカテゴリーモデルと、最大尤度法(ML)および最大事後確率法(MAP)を比較した。その結果、学習例が100以上のカテゴリーを有し、学習例が少な過ぎる場合には、ベイズ法は有用なモデルを生成するが、他の方法ではうまく行かない。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


事前知識を利用した、陰影から形状を求める多面体の再生
A Shape-from-Shading Method of Polyhedral Objects Using Prior Information

Hisashi Shimodaira, IEEE Computer Society

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4, pp. 612-624 , April 2006

Keywords: Vision and scene understanding, scene analysis, 3D/stereo scene analysis, modeling and recovery of physical attributes, shape, shading.

単一の2次元画像から陰影情報を利用し、オブジェクトに関する事前知識を使って3次元の多面体形状を復元する新規な方法を提案する。厳密に言えば、図面が実用的にほとんど正確であったとしても、少しでも不正確な線画からは多面体形状を復元することはできない。この問題を克服するために、不正確な図面による面の位置誤差から生じる頂点位置の誤差に起因する再現形状の矛盾を許容する柔軟な面設定法を提案する。更に、良い解を得、事前情報を物理的拘束条件とするような定式法を得るため、特定の面が水平であるか垂直であるか、辺が凸か凹のどちらであるかなどの事前知識を利用する。陰影からの形状推定法は、非線形のコスト関数の最小化問題として定式化される。ここでは制約条件が非線形であり、解は全体最適となるよう探索される。合成画像と3種の実画像による実験では、オブジェクトに近い形状がすべてにおいて復元できた。その結果、本提案手法は単純な多面体形状のオブジェクト復元には有力であることが分かった。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単眼画像から関節表現されたオブジェクトの動き解析
Motion Analysis of Articulated Objects from Monocular Images

Xiaoyun Zhang, Yuncai Liu, Thomas S. Huang, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4, pp. 625-636 , April 2006

Keywords: Articulated object, kinematic chain, motion estimation, exponential map, point pattern matching.

本論文は動きに制約を加えないで遠近撮影した単眼撮影画像中の特徴点の対応関係から関節表現されたオブジェクトの、新規な動き解析法を提案する。関節表現されたオブジェクトは、関節と連結で構成される力学的連鎖で表され、2−3画面に渡る2つの連結関係を利用したスケール因子から、その3D結合位置が推定される。次に、捻れと指数マップを利用して、各連結の動きを表現するが、これには元になる一般的動きの連結、他の連結が与える関節周りの回転表現も含まれている。最後に画像の点対応関係から、——これは剛体運動の基礎行列式と類似しているが——、が導かれ、動き推定が可能となる。このアルゴリズムにおいて、連結間の動きの特徴は、問題の複雑性を簡易化することに応用でき、ロバスト性を強化できる。関節で連結された点パターンマッチングアルゴリズムについても考察した。実画像によるシミュレーションや実験によって、このアルゴリズムの正しさと効率性が実証された。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


エッジ位置同定のための特注モーメント
Custom-Built Moments for Edge Location

Irina Popovici, William Douglas Withers

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4, pp. 637-642 , April 2006

Keywords: Edge detection, moments, step edge, Radon transform, wedgelets.

画像中のステップエッジの場所を同定し、マラメータ化するために有用なモーメントを利用した関数の一般的構成法を示す。以前示したモーメントによる位置同定法は、円形の領域の関数にその適用が限られていたが、本手法では、円状、矩形状、あるいは、適用できる形状の自由度が大きなグラフにも可能で、カスタムデザインされた関数を利用する。我々の手法における、画素化に伴う量子化誤差、理想エッジモデルとの差異についての解析結果も示す。パラメータ化したエッジ記述は、ウェッジ画像符号化法の部品として特に適している。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所的近傍構造を保存する非剛体形状のためのロバストな点マッチング
Robust Point Matching for Nonrigid Shapes by Preserving Local Neighborhood Structures

Yefeng Zheng, IEEE, David Doermann, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4, pp. 643-649 , April 2006

Keywords: Point matching, shape matching, image registration, nonrigid shapes, relaxation labeling.

点マッチングに関する以前の研究において、点の組は、点集合中の全体的関係を実現するための結合分布事例として扱われる。非剛体であっても、全体的関係よりも、近傍点の間の関係は、より強く、より安定である。本論文では、一般的点マッチング問題においても、近傍構造の考えを導入する。従来方法による形状の違いによる距離の最適解を利用してグラフマッチングを初期化した。広範な実験によって我々の方法は変形、点位置に関するノイズ、外れ値、隠蔽、回転などの変形に対してロバストであることが示された。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


対応関係探索のための適応的サポート重み法
Adaptive Support-Weight Approach for Correspondence Search

Kuk-Jin Yoon, IEEE, In So Kweon, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4, pp. 650-656 , April 2006

Keywords: Stereo, 3D/stereo scene analysis.

可変サポート重み法による、ウィンドウを利用した新規な対応関係探索法を紹介する。画像の曖昧性を減少させるため、色類似性や形状類似性に基づく与えられたサポートウィンドウ中の画素にサポート重みを割り当てる。本手法は他の局所的な標準的ステレオマッチングのベンチマークを凌駕する。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


背景と動くオブジェクトモデル化のためのテクスチャーに基づく方法
A Texture-Based Method for Modeling the Background and Detecting Moving Objects

Marko Heikkila, Matti Pietikainen, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4, pp. 657-662 , April 2006

Keywords: Motion, texture, background subtraction, local binary pattern.

本論文は、新規なテクスチャーに基づく方法を利用して、ビデオ画像から背景をモデル化し、動くオブジェクトを検出する方法を紹介する。各画素は、着目画素の周囲の円形領域から計算された適応的2値パターンヒストグラムを複数利用してモデル化される。この手法は、最新の手法に比較して、多くの利点がある。実験結果から、本手法の利点が明らかである。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


人間追跡のための、多数カメラ間の主軸に基づく対応関係
Principal Axis-Based Correspondence between Multiple Cameras for People Tracking

Weiming Hu, Min Hu, Xue Zhou, Tieniu Tan, IEEE, Jianguang Lou, Steve Maybank, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4, pp. 663-671 , April 2006

Keywords: Correspondence between multiple cameras, principal axes, people tracking.

複数のカメラを使っての視的調査は、近年注目を集めつつある。多数のカメラの間の対応関係を取ることは、視的調査において、最も基本的で重要な問題の一つである。本論文では、簡単でロバストな方法を提案する。これは、人間の主軸に基づき、複数カメラ間で人々をマッチングさせる。対応する尤度は人間の主軸間の類似度を反映しており、各カメラの視野において検出された人々の地表点と、異なるカメラ視野における主軸と、同一視野に変換された交差点の関係の反映である。この方法は次のような利点を有している。1)カメラのキャリブレーション不要。2)正確な動き検出とセグメンテーションは、主軸の利用がノイズの影響をロバストにしており、ノイズにはそれほど敏感ではない、3)対応関係結果に基づき、得られた融合データは、各カメラの人の位置は、たとえ全画面で人の一部が隠蔽されていても正確に抽出である。実際のビデオ画像での実験結果はその有効性と効率性とロバスト性を実証した。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.28, No.5


形態学的画像構成
Morphological Image Compositing

Pierre Soille

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 5, pp. 673-683 , May 2006

Keywords: Mathematical morphology, image compositing, seam, watershed transformation, segmentation, mosaicking, remote sensing.

画像モザイク化は、二つ以上の画像の位置あわせと、それらの単一画像への統合として定義できる。一旦これらの画像を共通の座標系に合わせてしまえば、この問題は、複数の画像に現れる画素それぞれに対して、単一の出力値を選択するためのルールの定義に帰結する。このプロセスは画像構成として知られている。本稿では、数学的形態学と、マーカーにより制御される分割パラダイムに基づいた、画像構成方法を提案する。提案方法の目的範囲は、画像の合わせ目を入力画像中の顕在画像構造に沿わせることで、たとえ放射量補正や混合方法が無い場合でも、合わせ目が出力画像中で目立たないようにすることである。また、2つ以上の画像がオーバーラップする領域で起こる、好ましくない過渡的なオブジェクトの合わせ目を最小化するために本方法が適していることも示す。提案する方法論とアルゴリズムを、雲による隠蔽を最小化する衛星画像の構成のために例証する。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像理解のための構成要素最適化:ベイズ法によるアプローチ
Component Optimization for Image Understanding: A Bayesian Approach

Li Cheng, Terry Caelli, IEEE, Arturo Sanchez-Azofeifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 5, pp. 684-693 , May 2006

Keywords:

本稿では、画像理解の3つの基本構成要素、即ち分割/注釈、三次元センシング(立体視)、そして三次元フィッティング、の最適化について調べ、ベイズフレームワークに組み込む。このアプローチは、柔軟性と頑健性を顕著に改善した最近の統計学習の進展を利用している。最初の二つの構成要素は注釈(領域ラベル付け)と入力画像の奥行きマップを与え、第三のモジュールは、最適と思われる3Dモデルにフィットするように領域ラベルと奥行きマップの不整合を統合し解決する。これらのアイディアの応用を例証するために、個別ツリーモデルをツリースタンドにフィットさせるという難しい問題に焦点を当てている。これは画像情報に基づいた林業での資産管理システムにおける大きなチャレンジである。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


路上車両検出:レビュー
On-Road Vehicle Detection: A Review

Zehang Sun, IEEE, George Bebis, IEEE, Ronald Miller

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 5, pp. 694-711 , May 2006

Keywords: Vehicle detection, computer vision, intelligent vehicles.

運転環境及び、起こりうる他の車両との衝突をドライバーに対して警告することを目的とした車載型ドライバーサポートシステムの開発は、最近まで多大なる注目を浴びてきた。これらのシステムにおいては、頑健且つ信頼性の高い車両検出が重要なステップになっている。本稿では最近の画像情報に基づいた車載型車両検出システムについてのレビューを示す。交通モニタリングシステムでの固定されたカメラからの画像などではなく、車載されたカメラからの画像を利用したシステムに注目した。最初に光学センサを用いた車載型車両検出の問題点について検討し、次に全世界におけるインテリジェントビークル研究の簡単なレビューを与える。そして画像情報に基づく車両検出のため能動的及び受動的センサについて議論する。次に画像中の車両位置の仮説生成を高速に行うことを目的とし、一仮説の検証も併せて行う方法についてのレビューを行う。車両検出とトラッキングの統合についても同じくレビューを行い、車両検出のために時系列連続性を利用することの利点を例証する。最後にこれまでに議論された本方法の批判的概要調査を示し、将来の展開の可能性を評価し、そして将来の研究の方向性を示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オフラインアラビア語手書き認識:サーベイ
Offline Arabic Handwriting Recognition: A Survey

Liana M. Lorigo, IEEE Computer Society, Venu Govindaraju, IEEE Computer Society

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 5, pp. 712-724 , May 2006

Keywords: Computer vision, document analysis, handwriting analysis, optical character recognition

スキャン画像のテキストの自動認識により、多量の文書からの単語検索や郵便の自動選別、そして便利な印刷文書の編集など、多くのアプリケーションが実現されている。アラビア語手書き文字の分野は、特異な技術的課題を持ち、他の分野より最近になって扱われるようになった。様々な方法が提案され、様々なタイプの画像に適用されてきた。本稿では、これらの方法のわかりやすいレビューを与える。これはアラビア語手書き認識に注目した最初のサーベイであり、また取り扱うアプローチの認識率とテストデータの記述を与える最初のアラビア文字認識のサーベイである。本稿は、この分野のバックグランドと、これらの方法についてのディスカッション、そして将来の研究の方向付けについての議論も含む。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔認識の過酷な条件下での性能(Grand Challenge Performance)向上のための次元拡大法の利用
Capitalize on Dimensionality Increasing Techniques for Improving Face Recognition Grand Challenge Performance

Chengjun Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 5, pp. 725-737 , May 2006

Keywords: Dimensionality increasing techniques, face recognition, Face Recognition Grand Challenge (FRGC), fractional power polynomial models, Gabor image representation, Kernel Fisher Analysis (KFA) method.

本稿では次元拡大法を利用した新しいパターン認識フレームワークを示す。特にこのフレームワークはガボール画像表現と新しいマルチクラスカーネルフィッシャー解析(Kernel Fisher Analysis:KFA)、そしてパターン認識性能向上のための分数乗多項式モデルを統合する。ガボールフィルタを異なるスケールと方位で適用することで次元を拡張するガボール画像表現は、輝度変化などの画像の多様性に対処するため、空間周波数、空間位置、そして方位選択性で特徴付けられる。KFA法はまず、入力空間から高次元特徴空間への非線形マッピングを行い、そしてこの特徴空間においてマルチクラスフィッシャー判別解析を実行する。この非線形マッピングの重要性は、KFA法の判別能力を向上させることであり、これは特徴空間においては線形であるが、入力空間においては非線形である。KFA法の新規性は1)2クラスカーネルフィッシャー法を、マルチクラスパターン識別問題を扱えるように拡張していること、2)従来の一般化判別解析(Generalized Discriminant Analysis:GDA)を、単一解(GDA解は単一でない)を導出することで向上させていること、によるものである。分数乗多項式モデルにより、今回提案するパターン認識フレームワークの性能を、さらに向上させる。FERETデータベース及びFRGC(Face Recognition Grand Challenge)データベースの両方を用いた顔認識実験により提案フレームワークの実現可能性が示される。特にFERETデータベースを用いた実験結果は、KFA法がGDA法よりも良い性能を持つこと、そして分数乗多項式モデルがKFA法とGDA法の両方の助けとなり、これらを用いた顔認識性能を向上させることを示している。FRGCデータベースを用いた実験結果は提案するパターン認識フレームワークがBEEベースラインアルゴリズム及びLDAに基づいたベースラインアルゴリズムを、顔認識性能において格段に向上させていることを示している。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


目領域の詳細モデルと顔画像解析への応用
Meticulously Detailed Eye Region Model and Its Application to Analysis of Facial Images

Tsuyoshi Moriyama, IEEE, Takeo Kanade, IEEE, Jing Xiao, IEEE, Jeffrey F. Cohn, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 5, pp. 738-752 , May 2006

Keywords: Computer vision, facial image analysis, facial expression analysis, generative eye region model, motion tracking, texture modeling, gradient descent.

虹彩の位置、まぶたの開き具合、そして形状、複雑性、及びまぶたのテクスチャに関して、目領域画像の詳細な解析ができるシステムを提案する。本システムは生成的な目領域モデルにより、目の詳細な構造と動きをパラメタ化する。構造パラメタは虹彩のサイズ及び色、幅、太さ、まぶたの複雑性、目の下のふくらみの幅、そしてそのふくらみの光源反射の幅を含む、目の構造の個別性を表現する。動きパラメタは上下のまぶたの垂直方向位置と虹彩の二次元位置を含む目の動きを表現する。本システムはまず特定フレームの入力に目のモデルを登録し、構造パラメタを調整することで、それを個別化する。そして画像系列全般にわたって目の動きを、動きパラメタを推定することで追跡する。頭部の動きによる見えの変化を補正するための画像安定化処理を組み合わせることで、正確な目の登録と動きの復元を達成している。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


人物検出と追跡のための場のモデル
A Field Model for Human Detection and Tracking

Ying Wu, IEEE, Ting Yu, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 5, pp. 753-765 , May 2006

Keywords: Object detection, shape, Markov random fields, image models, machine learning, statistical computing, probabilistic algorithms.

形状の変化と部分的隠蔽は、歩行者など、殆どの非剛体ターゲットに対するオブジェクト検出と追跡方法を極端に難しくしている。本稿では2層統計場モデルに基づいた新しいアプローチを紹介する。このアプローチでは、ボルツマン分布などの複雑な形状の事前確率を特徴づけ、この事前確率と複雑な画像尤度をマルコフ確率場に埋め込む。このモデルの確率論的変動解析により、マルコフ確率場の平衡を特徴付ける不動点方程式を明らかにする。これにより、画像尤度計算とモデルの訓練のための計算効率が高い方法を得ることができる。これに基づき、非剛体オブジェクト検出のための効果的なアルゴリズムが開発される。この新しいアプローチには幾つかの利点がある。まず局所的非剛体性をとらえるのに本質的に適している。加えて尤度が分散しているために、このアプローチは部分隠蔽に対して頑健である。更に2層構造により画像観測のモデル化において、高い柔軟性を得ることができ、これにより本手法を乱雑さに対して頑健なものにしている。大規模な実験により本手法の有効性を示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最大エントロピーを与える線形補間によるノンパラメトリック教師付学習
Nonparametric Supervised Learning by Linear Interpolation with Maximum Entropy

Maya R. Gupta, Robert M. Gray, Richard A. Olshen, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 5, pp. 766-781 , May 2006

Keywords: Nonparametric statistics, probabilistic algorithms, pattern recognition, maximum entropy, linear interpolation.

学習ためのノンパラメトリック近傍法は、テスト点の“近傍”をなす標本の相対頻度に基づいたクラス条件付確率の推定を本質的に必要とする。線形補間と最大エントロピー原理(linear interpolation and the principle of maximum entropy:LIME)を用いた学習アルゴリズムを提案し、その振る舞いを調査する。我々は以下のようなLIMEアルゴリズムの幾つかの理論的特徴を考慮する。i)LIMEによる重み付けは指数関数的となる。ii)LIMEによる推定は整合的である。iii)LIMEによる推定は、付加的なノイズに対して頑健である。バイアス低減に関して、近傍がテスト点の凸包を漸近的に含むことを示す。関連する最大エントロピー問題を解くために、グリッドやルックアップテーブルに用いられる一般的な線形補間法を示す。LIMEシミュレーションの結果により、この方法の使用が有効であることが示される。パイプライン完全性識別問題における性能により、提案アルゴリズムが実際的価値を持っていることを示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


基底関数表現とレベルセット発展による、結合複数領域分割と画像の動きパラメトリック推定
Joint Multiregion Segmentation and Parametric Estimation of Image Motion by Basis Function Representation and Level Set Evolution

Carlos Vazquez, IEEE, Amar Mitiche, IEEE, Robert Laganiere, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 5, pp. 782-793 , May 2006

Keywords: Motion estimation, motion segmentation, basis function representation of motion, parametric motion model, curve evolution, level sets.

動きの基底関数表現とレベルセット展開による、結合分割及び画像の動きのパラメトリック推定のための変分法の調査を本稿で提案する。汎関数は3項からなる。ひとつは、(結果として得られる)分割が滑らかな境界を持つように解にバイアスを掛けるための典型的な正則化項である。第二項は、動きの断絶と分割境界が一致するように解にバイアスを掛けるものである。この分割境界は、画像の時空間変分の関数により動き断絶の記述の結果として得られる。第三項は領域情報を参照し、画像の時空間変分への分割の各領域の動きのパラメトリック表現の一致性を測量する。分割の各領域の動きの成分は、基底関数の組により張られた空間における関数として表現される。基底関数の結合を考慮した動き成分の係数は、表現のパラメタとなる。動きパラメタの分割に対する依存性を考慮に入れて導出される、この汎関数の極小点のための必要条件により、レベルセットを通じて実現される同一点に収束する曲線発展と、分割の各領域内での最小二乗法によるパラメタの推定に縮合するアルゴリズムを与える。本アルゴリズムとその実装は合成画像及び実画像においてコサイン変換の基底を用いて検証される。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


間接的類似性を介したマルチセンサ画像レジストレーション
Multisensor Image Registration via Implicit Similarity

Yosi Keller, Amir Averbuch

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 5, pp. 794-801 , May 2006

Keywords: Global motion estimation, multisensor registration, multimodality image alignment.

本稿では、様々なモダリティのセンサーにより得られた、顕著な非類似性を持つ画像のレジストレーションのためのアプローチについて述べる。勾配極大値の位置の整列により頑健なマッチング基準を導出する。この整列は、画像セット中のひとつの画像における画素の組の強度勾配の大きさの反復的な最大化により得られる。この画素の組は第二の画像の勾配極大値の位置により初期化される。両画像の強度を用いるいかなる明示的な類似度も使用しない。この計算は、最初の画像の全ての空間的情報を利用し、レジストレーションの精度及び頑健性はこの情報のみに依存する。偽対応を検出し、方向性のある類似性尺度を用いて適応的に重み付けする。“疎から密へ”の定式化スキームを埋め込むことで、多様な強度変換を持つ複雑な空間により特徴付けられる画像の場合においてさえも、アフィン及び投影的動きを推定することができた。このスキームは、画像の組の内のひとつが他方に比べ、顕著に高画質(ノイズ、にじみ等)の場合に特に適している。これらの特性をマルチセンサによる実画像セットにおける実験を通じて実証する。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ボトムアップ視覚的注意のモデル化のためのコヒーレント計算アプローチ
A Coherent Computational Approach to Model Bottom-Up Visual Attention

Olivier Le Meur, Patrick Le Callet, IEEE, Dominique Barba, IEEE, Dominique Thoreau

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 5, pp. 802-817 , May 2006

Keywords: Computationally modeled human vision, bottom-up visual attention, coherent modeling, eye tracking experiments.

視覚的注意は冗長な視覚情報にフィルタを掛け、我々の視野の最も関係性の高い部位を検出する機構である。視覚的に最も関係性の高い領域の自動決定は、画像及びビデオコーディング、画像透かし処理、ビデオブラウジング、そして画像品質アセスメントなどの多くの応用において有効である。現在多くの研究グループが視覚的注意システムの計算モデリングの調査を行っている。最初に発表された計算モデルは、基本的な良く理解された人間の視覚系(Human Visual System:HVS)特性に基づいていた。これらのモデルは、視覚系のただひとつの面をシミュレートする単一の知覚層を持つことを特徴とする。最近のモデルはHVSの複雑な特徴を統合し、視覚入力の階層的な知覚表現をシミュレートする。これらの最近のモデルの殆どでボトムアップ機構が取り入れられている。この機構は、不随意の注意(即ちたやすく、あるいは強制的に我々の注意をひきつける顕在空間視覚特徴)に関係している。本稿では、このボトムアップ視覚的注意のモデリングのためのコヒーレント計算アプローチを示す。このモデルは主に現在のHVSの振る舞いに関する知識に基づいている。コントラスト感度関数、知覚分解、視覚的追跡、そして中央−周辺インタラクションなどがこのモデルで実装されている。自然画像と視標追跡システムからの実験的測量を用いてこのアルゴリズムの性能を評価する。二つの適当な良く知られたメトリクス(相関係数とKullback-Leibler情報量)を用いて、このモデルを検証する。更なるメトリクスも定義する。最終的にこのモデルからの結果を、リファレンスとなるボトムアップモデルからの結果と比較する。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オフラインの文法に基づいた手書き文認識
Offline Grammar-Based Recognition of Handwritten Sentences

Matthias Zimmermann, Jean-Cedric Chappelier, Horst Bunke, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 5, pp. 818-821 , May 2006

Keywords: Optical character recognition, handwriting analysis, natural language parsing and understanding.

本稿では隠れマルコフモデル(Hidden Markov Model:HMM)の組の系列を用いた、オフライン手書き英文認識を提案する。提案手法では、テキストコーパスから抽出された確率的コンテキスト非依存文法(Stochastic Context-Free Grammars:SCFG)による確率的ボトムアップチャートパーサーを用いる。大規模な実験により、シンタックス解析が認識率を有意に向上させることが結論付けられる。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


再訪自然画像の主成分
The Principal Components of Natural Images Revisited

Gunther Heidemann

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 5, pp. 822-826 , May 2006

Keywords: Statistical image representation, feature measurement, feature representation, texture, color scene analysis, shape, computer vision, computational models of vision, connectionism and neural nets.

本稿では、グレーレベル及びカラーの自然画像の主成分(principal components:PCs)について調査する。主成分の水平及び垂直の表象により、調整可能バンドパスフィルタのための基底関数のグループの同定ができることが判った。このシステムを用いることで、選択された空間周波数に対して、総合分散量への空間−色相構造の寄与が定量化できる。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


K結合近傍グラフ
Building k-Connected Neighborhood Graphs for Isometric Data Embedding

Li Yang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 5, pp. 827-831 , May 2006

Keywords: Data embedding, graph connectivity, manifold learning, network flow.

測地距離を用いて埋め込まれた等長データは、全ての2つのデータ点間の測地距離が推定できるように結合近傍グラフを構築する必要がある。本稿では、このk結合近傍グラフの構築のためのアプローチを提案する。このアプローチは、もしエッジの終端の頂点がまだグラフのk近傍に結合されていない場合、エッジ長の非減少順に各エッジを近傍グラフに追加するために、貪欲アルゴリズム(greedy algorithm)を適用することで動作する。すべての頂点に単位フロー容量を割り当てることで、頂点間のK近傍結合性をネットワークフロー技法を用いてテストする。このアプローチは幅広い種類のデータに適用可能である。特にデータが過少サンプリングされている場合や、非均一分散の場合、本アプローチが他よりも良い測地距離推定を与えることを実験により示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


周期的運動を用いた照明可変条件下での動画修復
Video Repairing under Variable Illumination Using Cyclic Motions

Jiaya Jia, IEEE Computer Society, Yu-Wing Tai, IEEE Computer Society, Tai-Pang Wu, IEEE Computer Society, Chi-Keung Tang, IEEE Computer Society

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 5, pp. 832-839 , May 2006

Keywords: Video restoration, spatio-temporal consistence, illumination consistence, tensor voting, applications.

本稿は、非校正入力動画中の、隠蔽もしくは破損による大量の画素の欠落部を合成することが可能な完全なシステムを紹介する。欠落した画素は静的な背景もしくは録画されたシーンの周期的運動に一致してもよい。われわれのシステムの動画修復の主な処理は完全に自動化されているが、動画レイヤー分割にはユーザの補助を用いる。入力動画はまず色成分と明度成分の動画に分解される。必要とされる時間的整合性は、時空間領域でのテンソル投票により維持される。背景領域の欠落した色情報および明度情報は画像修復を適用することで修復される。最後に隠蔽された運動は、複数のスケールで集められたサンプルの時空間整列により推測される。カメラ固定若しくはカメラ可動状態で、かつ照明可変条件下での幾つかの困難な例を用いて、本システムを試験した。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単一視点の全方向反射屈折円錐鏡面画像
Single-View-Point Omnidirectional Catadioptric Cone Mirror Imager

Shih-Schon Lin, IEEE, Ruzena Bajcsy, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 5, pp. 840-845 , May 2006

Keywords: Catadioptric camera, imaging geometry, image quality analysis, omnidirectional imaging, optical analysis, panoramic imaging.

ここで我々は、単一視点(single-view-point:SVP)からの円錐鏡面画像に関する総合的な画像処理理論を示す。また単一視点円錐鏡面反射屈折システムが、実用的なだけでなく、特定のアプリケーションにおいて、特異な利点を持っていることを示す。このシステムのメリットと弱点、そしてどのようにして可用なシステムを構築するかについて示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.28, No.6


大局的で包括的な類似度に基づく指紋マッチング法
Fingerprint Matching Based on Global Comprehensive Similarity

Yuliang He, Jie Tian, IEEE, Liang Li,Hong Chen, Xin Yang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 06, pp. 850-862 , 06 2006

Keywords: Fingerprint identification, ridge-based nearest neighborhood among minutiae, relative feature, minutia-simplex.

本論文は3段階で構成される大局的で包括的な類似度に基づく指紋マッチング法を紹介する。指紋細部特徴(minutiae)間の相対的特徴量をユークリッド空間で記述するために、細部特徴対とともに関連テクスチャーに基づく特徴記号を構成する。包括的類似度の評価のためと、パラメータ推定のために、移動不変性を有し、普遍的で相対的な特徴量を採用した。第2段階で、指紋細部特徴量間の相対的な最近傍尾根(ridge)特徴量を利用した。これら尾根に基づく相対特徴量は尾根との類似性によるグルーピングを実施した。指紋細部特徴間で、ユークリッド空間での、尾根に基づく相対的特徴量は、互いに補強し合う特徴量となる。最後に、2つの指紋の変換と包括的類似性の関係をモデル化するが、これにはヒストグラムを利用した初期パラメータ推定を利用する。これらの段階を経ることで、上に述べた方法は、1キロバイト以下のテンプレートを必要とするだけなので、メモリ制限のあるAFIS(Automatic Fingerprint Identification System)に適しており効率的であることが示された。

EK

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


歩行運動の正規化による改良された歩行認識
Improved Gait Recognition by Gait Dynamics Normalization

Zongyi Liu, Sudeep Sarkar, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 06, pp. 863-876 , 06 2006

Keywords: Gait recognition, biometrics, LDA, gait shape, population HMM.

歩行による個人認証の可能性は2点から考えられる;歩行形状および歩行運動。歩行認識の改善は運動が正規化された後なら、形状情報に注目することで達成可能であることを示す。一般的な歩行モデルを利用して、歩行運動を正規化するが、これは一群の個人で定義されたpopulation Hidden Markov Model (pHMM)によるモデルで取得されたものと同様である。このpHMMの状態は、歩行の1歩分の周期の姿勢を表しており、歩行姿勢はシルエットとして観察できる。各周期ごとに、歩行運動をViterbiによって記述し、その結果1つの正規化され、平均化された固定長の歩行周期が得られる。2つの周期の間の距離は対応する2つの正規化された動的歩行周期間の距離であり、対応する歩行姿勢の距離の和として定量化される。同一の一般化歩行姿勢から得られた2つのシルエット間の距離は、線形判別分析空間で計算されるが、このとき同一被験者の異なる条件での分散を最小化すると同時に、異なる人の間の距離を最大化するように設定する。距離計算は、シルエットの膨張や侵食に対して不変であるように構成される。これによって、画像が条件によって変動する場合に対応することが可能となる。ここに3種の入手可能なデータベースに対する結果を示す。第1に、利用可能な最大の歩行画像データベース(122個の被写体)であり、視点、靴、外見、持ち物の条件、時間の5つの異なる因子をもつHumanID Gait Challengeを考える。外見の変化、ブリーフケースを持っている場合を含む、困難な実験条件でも、顕著な効率改善を果たした。第2に55人の経時変化のある55人の被写体のあるUMDの歩行者データに対しても効率改善が得られた。第3に、歩行速度の異なるCMUのMoboデータに対するマッチング結果を示す。UMD, CMUのデータに対して個別学習を行ってないことも記す必要がある。

EK

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


レベル集合法による動的なクラスター形成
Dynamic Cluster Formation Using Level Set Methods

Andy M. Yip, Chris Ding, Tony F. Chan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 06, pp. 877-889 , 06 2006

Keywords: Dynamic clustering, level set methods, cluster intensity functions, kernel density estimation, cluster contours, partial differential equations.

密度に基づくクラスタリング法の特徴は、1)クラスター形状が任意であること、2)初期入力としてクラスター数が不要なことであろう。しかし、クラスター同士が接触した場合には、クラスター中心もクラスター境界(密度分布の頂点と谷)も曖昧になり決定が困難となる。ここで、クラスターの重要な特徴を現しているクラスター強度関数(CIF)の概念を紹介する。クラスターが十分分離しているときCIFは密度関数と似ている。しかし、クラスターが互いに接近してくるときでも、CIFはクラスター中心や、クラスター境界や、各データ点が属するメンバーシップの度合いを表すことが可能である。これら関数にもとづく凸凹探索や谷探索によるクラスタリングは、カーネル密度推定から得られる密度関数による方法が過度に平滑化された結果振動することがあるのに比べ、もっとロバストである。これらのカーネル密度推定法による問題は、レベル集合法(Level Set Method)を利用して解決できる。既存の2つの密度に基づく方法である、谷探索とDBSCAN、による結果が示されているが、これと比較して我々の手法の利点がわかる。

EK

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線分描画のロバストで正確なベクトル化
Robust and Accurate Vectorization of Line Drawings

Xavier Hilaire, Karl Tombre

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 06, pp. 890-904 , 06 2006

Keywords: Document analysis, graphics recognition and interpretation, vectorization, curve segmentation, performance evaluation, line drawings.

本論文は、紙上の線分描画の画像部品をベクトル化する方法を紹介する。例えば、入力2値画像を均一な厚さのレイヤーに分離し、各レイヤーを骨格化し、ランダムサンプリングによって骨格をセグメント化し、最後に結果の簡潔化を行う。このセグメンテーション法は最大50%のノイズに対してロバストで、無限長のプリミティブにまで達した。認識されたベクトルパラメータの正確な推定は、実行可能なドメインにおいてのみの計算で可能であった。理論的な効率解析とセグメンテーション法の複雑度の表現法が導出された。実験結果と、他のベクトル化システムの比較も示されている。

EK

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


静的画像中のヒトの3次元姿勢の推定のためのモデルに基づいた手法
A Model-Based Approach for Estimating Human 3D Poses in Static Images

Mun Wai Lee, Isaac Cohen,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 06, pp. 905-916 , 06 2006

Keywords: Three-dimensional human pose estimation from static images, body parts detector, data driven Markov chain Monte Carlo, generative models.

静止した画像中の身体の姿勢を推定する問題は画像理解に関する多くの用途があり、例えば、画像内容抽出、画像データベース問合せや検索の用途がある。この問題が困難なのは、画像中には多くのごみがあり、観察上の曖昧さ、ヒト映像の境界が未知であること、明瞭なヒトの体の構造の複雑さに基づく高次元の状態空間にあることである。ヒトの体の姿勢推定は、顔、腕などの部品が強く制約を受けた状態での統合的検出によって、もっとロバストになりうる。本論文では、マルコフチェインモンテカルロ法(DD-MCMC)に基づくデータ駆動型手法を利用して、部品の検出の結果が3D姿勢の推定を生成する。観察から姿勢推定に翻訳するために、我々は提案マップを導入した。これによって証拠を集約し、MCMC探索の間に3D姿勢候補を生成する。テスト画像集合による実験の結果は、実写の静的画像中のヒトの姿勢の推定が可能であることを示した。

EK

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


標本類似度からアンサンブルの類似度へ:カーネルヒルベルト空間での再生における確率的距離尺度
From Sample Similarity to Ensemble Similarity: Probabilistic Distance Measures in Reproducing Kernel Hilbert Space

Shaohua Kevin Zhou, Rama Chellappa,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 06, pp. 917-929 , 06 2006

Keywords: Ensemble similarity, kernel methods, Chernoff distance, Bhattacharyya distance, Kullback-Leibler (KL) divergence/relative entropy, Patrick-Fisher distance, Mahalonobis distance, reproducing kernel Hilbert space.

本論文はサンプルの類似度からアンサンブルの類似度をどのように合理的に特徴付けるかの問題について述べる。再生カーネルをサンプル類似度の特徴として利用しながら、再生カーネルヒルベルト空間(RKHS)内での確率的距離尺度をアンサンブル類似度として提案したい。RKHS内での正規性を仮定すれば、Chernoff 距離 (or the Bhattacharyya distance as its special case), Kullback-Leibler divergence,など、多くの応用で普通に利用されている解析的表現が確率的距離尺度として導かれる。再生カーネルは暗黙的に非線形マッピングを組み込んでいるので我々の手法はこれらの距離を研究する新しい方法を示すことになる。ここの距離の実現可能性と効率は、人工的に作られた例や、実例によって実証できる。さらに、このアンサンブル類似性を再生カーネルに拡張し、更に一般的データ表現のためにアンサンブルの類似性を研究した。

EK

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


隠蔽のあるオブジェクトのベイズ法によるマッチングのための逐次モンテカルロ法
Sequential Monte Carlo for Bayesian Matching of Objects with Occlusions

Toni Tamminen, Jouko Lampinen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 06, pp. 930-941 , 06 2006

Keywords: Object recognition, statistical models in pattern recognition, Monte Carlo simulation.

既知のオブジェクトが未知の情景中にあるとき、その距離をオブジェクトの基準特徴量とのマッチングによって推定する問題を考える。見かけの特徴量と、形状の外観はそれぞれ別個にモデル化され、ベイズネットワークで結合される?本論文では、逐次モンテカルロ法に基づく新規なマッチングの様式を紹介する?この中で、以前にマッチングした特徴量の場所を制約条件として、特徴量は逐次的にマッチングされる。オブジェクト位置の点位置による表現(particle representation)によって、多数で、混みあった環境でのマッチングが可能となるが、これらはバッチ処理では収束が困難であった対象である?本提案手法では初期化とか予め順序を指定する必要はなく、どの特徴量から始めても良い?また、隠蔽によって検出できないオブジェクトや、異常な外観による検出不能なオブジェクトに大書するため、ベイズモデルを採用する?我々の実験では、対象物が単峰(unimodal)の場合提案手法によってバッチ処理と同等な効率を示す有望なマッチング結果が得られ、多モードの場合は、従来法を凌いだ?隠蔽モデルを利用することで、ほんの数画面だけで見える特徴量に対しても条件付先見モデルから見えないオブジェクトの位置を同定できた。

EK

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


近傍領域をカウントして定義される最近傍
Nearest Neighbors by Neighborhood Counting

Hui Wang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 06, pp. 942-953 , 06 2006

Keywords: Pattern recognition, machine learning, nearest neighbors, distance, similarity, neighborhood counting measure.

最近傍を探索することは、機械学習、データマイニング、自然言語理解、情報検索などを含む多くの人工知能課題に共通に基本的考え方である。この考え方をそのまま用いたのがk-最近傍アルゴリズム(kNN)であり、人気のある識別法の1つである。本論文では、類似の機能を案出するために、近傍領域の大きさをカウントする手法を利用した一般化を試みる。ここでは注目点を“近傍点の個数”から“近傍点が占める領域”に変えてみる。2つのデータ点の類似度の尺度は、両方のデータ点が占めるすべての近傍点を利用する。このような近傍点の個数を利用した類似度尺度を提案する。近傍は異なるタイプのデータに対しては異なる方法で定義することもできる。ここでは多値の近傍の定義を考察し、このような場合の類似度について定式化し、これを近傍カウント尺度、あるいは、NCMと名付ける。NCMはkNNの枠組みで実験的にテストしてみる。実験の結果NCMは一般的にVDMとその変形に対応し、これは多値データに対する最新の距離関数であると同時に、比較的大きなkの値に対して、常に良い結果を示す。更にNCMは常にHEOM (ユークリッド距離とハミング距離の混合)を凌駕する。この‘HEOMは多値データの距離関数としてもっとも良く利用されている距離関数で、いわば、標準となっている。NCMは標準的なユークリッド距離関数と同程度の計算複雑度を有し、課題に対して独立であり、数値データに対してもカテゴリーデータに対しても均一に有効である。近傍カウント法は多値データに対して健全であることが実験的に確認された。他のデータ型にも有効であることが期待される。

EK

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所記述子の記述能力評価
A Performance Evaluation of Local Descriptors

Krystian Mikolajczyk, Cordelia Schmid,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 06, pp. 1615-1630 , 06 2006

Keywords: Local descriptors, interest points, interest regions, invariance, matching, recognition.

本論文では、Harris-Affine検出器のように、局所的な関心領域を記述する能力を比較評価する。従来、多くの記述子が提案されてきた。しかし、どの記述子が優れているのか、その能力はどの程度記述子に依存しているのかが不明であった。記述子は特徴的でなければならず、同時に観察条件や、エラーに対してロバストである必要がある。この評価のために、異なる画像変換した後の基準リコールの精度を基準として利用する。そのために、形状、steerable filter、PCA-SIFT不変変換、および、各種の関心領域の交差相関を比較する。またSIFT記述子の拡張を提案し、これが元の性能を大きく上回ることを示す。更に、記述子の順位は、関心領域の検出器にはほとんど独立であり、SIFTに基づく記述子が最良であることが分かる。モーメントとsteerable filterは、低次元の記述子として最高の性能を示す。

EK

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


木の混合統合を利用した形状クラスの学習
Learning Shape-Classes Using a Mixture of Tree-Unions

Andrea Torsello, Edwin R. Hancock

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 06, pp. 954-967 , 06 2006

Keywords: Structural learning, tree clustering, mixture modelinq, minimum description length, model codes, shock graphs.

本論文では木クラスタリングにおける、いくつかのサンプル木に対して、木のユニオンの混合をフィッティングさせる問題について論じる木ユニオンとは、あるクラスターに属する個々のデータサンプルは編集操作で得られる構造のことである?各クラスターサンプルの観察される木のノードの分布は、ベルヌーイ(Bernoulli)分布を有する。クラスタリング法は、ノード間の対応が未知であり、学習プロセスの一部として推論されるべき場合に演算するように設計されている。データへの混合モデルのフィッティングには、最小記述長による方法を利用した?ベルヌーイパラメータの推測には最尤推定法を採用した?木ユニオンと混合割合は、記述長最小化の判別法で探索される?これは、ベルヌーイ分布の対数の符号を変えたものと、メッセージ長判別基準の和であり、これによってユニオン木と混合成分の数がコード化される。ノードの対応付けは編集距離と現状の木ユニオンとの比較において編集距離を最小化することで行われ、編集距離は記述距離判別基準と関連している。この手法は、重みの無い木にも、重み付き木にも両方適用できる。この結果得られたアルゴリズムの有用性を2D形状の類別に適用した結果を、ショックグラフ表現で示す。

EK

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テンソル投票の枠組み内で、単眼画像の手がかりを利用したステレオ
Stereo Using Monocular Cues within the Tensor Voting Framework

Philippos Mordohai, G?rard Medioni

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 06, pp. 1644-1659 , 06 2006

Keywords: Stereo, occlusion, pixel correspondence, computer vision, perceptual organization, tensor voting.

2つの静止画像中のマッチングという基本的な問題について述べる?また、その他の隠蔽やテクスチャーの欠如によるマッチング障害について述べる?我々は認識過程の組織化の枠組みの中で、双眼と単眼の両方の手がかりを考慮した、これらマッチングの課題を述べる?最初に、マッチング手法の組み合わせによって全画素の候補を生成する。次に、マッチング候補が、不一致空間に埋め込まれる?この空間では知覚組織化が3D近傍においてなされるため、走査線や画像近傍に起因する問題を回避できる?ここでの仮定は、正しいマッチングは特徴のある、整合性のある表面を形成するが、正しくないマッチングはそうはならない。表面が整合性のあるマッチング候補が保存され、滑らかな表面としてグループ化される。表面のセグメンテーションは、幾何学的に行われ、測光学的に行われるわけではない?隠蔽に起因する表面の過剰拡張は、両方の隣接する表面色が合致しない場合に補正される?最後に、両方の画像の綺麗になった表面の投影されたものがマッチングしない画素による不一致個所が定義される?最後の不一致個所は2次テンソル投票時に選択されるが、このとき高信頼画素から低信頼画素へと情報が伝達される?広く利用されているベンチマークのステレオ画像に適応された結果を示す。

EK

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


外れ点のある多体の2視野画像のモデル選択による構造と動き
Two-View Multibody Structure-and-Motion with Outliers through Model Selection

Konrad Schindler, David Suter

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 06, pp. 983-995 , 06 2006

Keywords: Dynamic scenes, structure-and-motion, model selection, 3D motion segmentation.

多体の構造と動き(MSaM)とは、異なる時間に撮影された3D情景画像の多視野の幾何学的関係を構築する問題であり、その画像は相対的に動く複数の剛体から構成されるものである。2画像問題から調べよう。まず、以下の設定からなっている:2画像中の対応点が与えられているが、動く未知の数のオブジェクトが存在し、この各々が動きモデルを与える。更に、測定誤差は未知であるし、すべてのモデルには外れ値となる多くの全体的誤りがある。ここでの課題は測定のための最適な動きモデル集合を探すことである。これはモンテカルロサンプリング、サンプル化した動きも出る集合の注意深い解析、および、測定を最も合理的に説明する複数の動きモデルを同時に選択することである。これはベイズモデルに基づいているため、この枠組みでは特定のモデル選択には拘束されない。異なるモデルの選択基準は、動くオブジェクト集合のための異なる事前知識に見られ、異なる目的のために選択にバイアスがかかる可能性がある。

EK

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IPCA-ICAアルゴリズムによる顔認識
Face Recognition Using IPCA-ICA Algorithm

Issam Dagher, Rabih Nachar,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 06, pp. 996-1000 , 06 2006

Keywords: IPCA-ICA, Principal component analysis (PCA), independent component analysis (ICA), principal non-Gaussian directions, image processing, blind source separation.

本論文ではIPCA-ICAと呼ばれる、逐次主成分非ガウス方向解析の高速アルゴリズムを紹介する。このアルゴリズムは、共分散行列を推定することなく(従って共分散不要の)、同時に、これら主成分を、元データの非ガウス性を最大化する独立した方向に変形する。人の全顔データベースを記述する最も効率的で独立した線分を得るために、逐次的に実時間で2つの主要な方法が採用された。この手続きは2つのアルゴリズムを併合して逐次計算するが、その元になっているのは主成分分析(PCA)と独立成分分析(ICA)である。このアルゴリズムは顔認識に応用された。他のデータベースを利用したシミュレーション結果によると、本アルゴリズムは他に比べて、高い平均成功率を示した。

EK

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2つの戦略の合わせた、改良された多クラスパターン認識法
Improving Multiclass Pattern Recognition by the Combination of Two Strategies

Nicol?s Garc?a-Pedrajas, Domingo Ortiz-Boyer

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 06, pp. 1001-1006 , 06 2006

Keywords: Multiclass, classification, one-vs-one, one-vs-all, neural networks, support vector machines.

1対全部および1対1法の改良による多クラス識別の新規な方法を紹介する。この提案された1対全部および1対1法の組合せ法は、両者の長所を強化する。2つの方法の振る舞いを見ると、その失敗のいくつかの原因が同定される。識別器の効率は、両者が1つに結合されると、失敗の主原因が部分的に回避されるように改良される。

EK

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ECOC判別法:エラー訂正出力符号のための用途別設計の発見的方法
Discriminant ECOC: A Heuristic Method for Application Dependent Design of Error Correcting Output Codes

Oriol Pujol, Petia Radeva, Jordi Vitri?

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 06, pp. 1007-1012 , 06 2006

Keywords: Multiple classifiers, multiclass classification, visual object recognition.

識別基準を最大化する識別空間の階層的分割の基づくエラー訂正出力符号の学習のための発見的手法を紹介する。この目標のために分割における最大クラス分割のために、最適符号分離を犠牲にした。階層的分割集合の生成のために、2分木を利用した。その結果、高効率な判別能力を有するコンパクトな行列が得られた。この方法はUCIデータベースを利用して妥当性が確かめられ、交通信号画像の識別の現実問題に適用された。

EK

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ベイズ特徴量とガウス混合モデルのためのモデル選択
Bayesian Feature and Model Selection for Gaussian Mixture Models

Constantinos Constantinopoulos, Michalis K. Titsias, Aristidis Likas

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 06, pp. 1013-1018 , 06 2006

Keywords: Mixture models, feature selection, model selection, Bayesian approach, variational training.

我々は混合モデルの訓練のためにベイズ方を提案するが、これは同時に特徴量の選択とモデル選択問題を同時に扱うことが出来る。この手法は、特徴量の顕著性と、ベイズ法による混合学習を考慮した混合モデルの定式化の統合を基礎にしており、多数の混合成分を推定するために用いることができる。ここに提案する学習法は変動する枠組みに適応でき、多くの成分、特徴量の顕著さ、混合モデルのパラメータを同時に最適化することができる。高次元の人工データと実データによる実験結果は、本手法の有効性を示している。

EK

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオにおける3D形状の制約
A 3D Shape Constraint on Video

Hui Ji, Cornelia Fermuller

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 06, pp. 1018-1023 , 06 2006

Keywords: Three-dimensional motion estimation, integration of motion fields, decoupling translation from rotation, shape and rotation.

見えている情景中の3D表面に垂直な制約を課すことで複数の動き場から得られる情報を結合することを提案する。異なる観察画像は回転のみで形状ベクトルが関連しているという事実はランク3の制約条件として定式化される。この制約は3Dの動きと構造推定問題を解くアルゴリズムに、実際的で制約された最小化の条件として実装化された。実験により、動きから構造を求めるツールとして、3Dの動きを非常に正確に推測していることが実証できた。

EK

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.28, No.7


人間の髪の解析と合成のための生成的スケッチモデル
A Generative Sketch Model for Human Hair Analysis and Synthesis

Hong Chen, Song-Chun Zhu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 7, pp. 1025-1040 , July 2006

Keywords: Hair modeling, hair analysis and synthesis, flow patterns, generative models, orientation field, texture, nonphotorealistic rendering.

本稿では人間の髪の解析と合成のための生成的スケッチモデルを示す。ここで我々は髪の画像を二次元の区分スムースベクトル(フロー)場として扱う。これにより我々の髪の表現は視点に基づいたものになる。これはコンピュータグラフィックで見られる、物理的な特徴に基づく三次元髪モデルとは対照的である。この生成的モデルは3つのレベルからなる。まず最下層レベルは髪画像の高周波領域であり、中間層レベルは髪の方位、傾斜の度合い、伸張方向のための局所平滑なベクトル場である。上層レベルは、このベクトル場における断絶を現すための特徴スケッチグラフである。このスケッチグラフは多くの場合多数のスケッチ曲線を持つ。このスケッチ曲線は11種類の方向選択性プリミティブに分割される。各プリミティブは小さい窓(たとえば5x7画素など)であり、方位と伸張方向がパラメタを用いて定義される。ここではたとえば髪の境界、髪の房同士の隠蔽線、頭頂の分割線などが定義される。三レベルの表現に加えてシェーディング効果、即ち髪画像の低周波領域もモデル化する。これには幾つかのガウシアン画像基底の線形重畳を用いており、カラーマップを用いて髪の色の符号化を行う。今回使用する推論アルゴリズムは二つの段階に分割される。1)非方向性方位場とスケッチグラフを入力画像から計算する。2)スケッチ曲線と方位場のための髪の伸張方向をSwendsen-Wangカットアルゴリズムを用いて計算する。これら両段階により結合ベイズ事後確率を最大化する。この生成的モデルにより、スケッチグラフと少数のガウス基底からの、現実的な髪画像の合成と立体的な描写(レンダリング)のための直接的な方法を与える。後者は実際の髪画像から推論することもできるし、簡単なスケッチのためのインターフェースを用いて入力画像(編集済み)から手動で推論することもできる。様々な髪型の髪画像の大規模なデータセットを用いて我々のアルゴリズムを試験する。この試験における解析、合成、そしてレンダリングの結果を報告する。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オンライン手書き認識のための最小識別誤差訓練
Minimum Classification Error Training for Online Handwriting Recognition

Alain Biem, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 7, pp. 1041-1051 , July 2006

Keywords: Minimum classification error, hidden Markov model, handwriting recognition, maximum likelihood, discriminative training, dynamic programming, finite state machine.

本稿では識別誤り最小化(Minimum Classification Error:MCE)基準のオンラインの非整形文文字及び単語の認識問題への応用について述べる。各文字に対して複数のアログラフ(allograph:異字体)を用いることで、手書き文字認識のための柔軟性を確保しながらも、文字若しくは単語レベルの識別誤り率を最小化することを目的とする、HMM(Hidden Markov Model: 隠れマルコフモデル)に基づいた文字及び単語レベルのMCE訓練について述べる。アルファベット、数字、及びキーボード記号をカバーする筆者非依存手書き文字認識タスクにおける実験により、ベースラインとして用いた最尤推定に基づくシステムに比べ、MCE基準が30%以上の文字認識誤り率の低減を達成することを示す。5千から1万の語彙における単語認識の結果は、ベースラインとなる最尤推定に基づいたシステムに比べて、MCE訓練が約17%の単語識別誤り率の低減を達成することを示している。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


形状コンテキストを用いた三次元人体構成の復元
Recovering 3D Human Body Configurations Using Shape Contexts

Greg Mori, Jitendra Malik, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 7, pp. 1052-1062 , July 2006

Keywords: Shape, object recognition, tracking, human body pose estimation.

本稿で検討する問題は、一人の人間の全身を写した単一の二次元画像を入力情報として、関節の位置を特定し、そしてこれらの情報を用いて人体の構成と姿勢を三次元空間において推定することである。基本的なアプローチは、様々な人体の構成を、同じく様々なカメラの視点から撮影することで得られる、多数の人体の二次元ビュー例を蓄積して用いることである。ここで蓄積されたビューそれぞれに対して、関節の位置(左肘、右膝等)を手動でマークしてラベル付けする。形状コンテキストマッチング技術を運動学的チェーンベースの変形モデルと結合して用いることで、入力画像と蓄積された各ビューとのマッチング処理を行う。入力画像の構成と姿勢に充分類似したビューが蓄積されていると仮定すると、この処理は上手く働く。そしてこのビューに登録された関節の位置をテスト画像中の形状に移す。二次元の関節位置を与えることで、既存のアルゴリズムを用いて三次元の人体の構成と姿勢が推定される。動画中の各フレームを独立して扱うことで、この技法をビデオ画像に適用する。様々なデータセットに対する結果を示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所拘束された分岐点変換
A Locally Constrained Watershed Transform

Richard Beare, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 7, pp. 1063-1074 , July 2006

Keywords: Segmentation, constrained watershed transform, constrained region growing, covered cost, Minkowski cost, seeded region growing.

数学的形態学で用いられてきた分岐点変換は分割のための強力且つ柔軟なツールである。しかし他の方法と異なり、分岐点変換では、領域境界に関連する事前知識を用いることが出来ない。本稿では局所拘束された分岐点変換を紹介する。この方法では、分岐変換が依存する潜在的なパスの定義に変更を加えることで、境界拘束条件を利用できるようにする。このアプローチでは、ノイズがある境界、若しくは不完全な境界の分割においても安定した分割を与えながらも、充分に定義された停止条件や効率的な実装などの分岐変換に求められる特徴の多くを維持する。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


エッジ保持ノイズ除去と非連続表面の推定
Edge-Preserving Image Denoising and Estimation of Discontinuous Surfaces

Irene Gijbels, Alexandre Lambert, Peihua Qiu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 7, pp. 1075-1087 , July 2006

Keywords: Corners, edges, jump-preserving estimation, local linear fit, noise, nonparametric regression, smoothing, surface fitting, weighted residual mean square.

本稿ではノイズを含むデータから非連続表面を推定する問題に注目する。局所線形カーネル平滑化に基づいた、この問題に対する新しい方法を提案する。この方法では、観測データにより測量される表面の局所平滑性に、局所的な隣接領域を適合させる。これにより平滑領域におけるノイズを正確に除去し、同時に表面の断絶も保持することが出来る。画像が画像強度関数の表面とみなせること、そしてそのような表面はオブジェクトの輪郭において断絶を持つことから、この方法は画像のノイズ除去に直接用いることが出来る。数値実験の結果により、いくつかの既存の方法に比べ、この方法が多くの応用において良好に働くことを示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像検索における、サポートベクターマシンに基づいたレレバンスフィードバックのための非線形バッギングとランダム部分空間
Asymmetric Bagging and Random Subspace for Support Vector Machines-Based Relevance Feedback in Image Retrieval

Dacheng Tao, IEEE, Xiaoou Tang, IEEE, Xuelong Li, IEEE, Xindong Wu, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 7, pp. 1088-1099 , July 2006

Keywords: Classifier committee learning, content-based image retrieval, relevance feedback, asymmetric bagging, random subspace, support vector machines.

サポートベクターマシン(support vector machines:SVM)に基づいたレレバンスフィードバック(ユーザが検索システムに検索結果に対するフィードバックを与えること:訳者注)スキームは、内容に基づいた画像検索(content-based image retrieval:CBIR)において広く用いられてきた。しかしラベル付けされたポジティブなフィードバック例の数が少ない場合、SVMに基づいたレレバンスフィードバックの性能は往々にして劣等である。これは主に以下の3つの理由による。1)SVM識別器はトレーニングセットが少数の場合不安定である。2)ポジティブフィードバック例の数がネガティブフィードバック例の数よりもかなり少ない場合、恐らくSVMの最適超平面がバイアスされる。3)特徴次元の数がトレーニングセットの数よりも相当大きいため、過剰適合が起きる。本稿では、これらの問題を克服する機構を開発する。最初の二つの問題を扱うために、非対称バッギングに基づいたSVM(asymmetric bagging-based SVM:AB-SVM)を提案する。三つ目の問題のために、ランダム部分空間法とレレバンスフィードバックのためのSVMを組み合わせる。これをランダム部分空間SVM(random subspace SVM:RS-SVM)と呼ぶ。最後にAB-SVMとRS-SVMを統合することで、非線形バッギング及びランダム部分空間SVM(asymmetric bagging and random subspace SVM:ABRS-SVM)を構築し、これによりこれらの三つの問題を解き、レレバンスフィードバックの性能を更に向上させる。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最近傍識別誤りの最小化のための加重行列の学習
Learning Weighted Metrics to Minimize Nearest-Neighbor Classification Error

Roberto Paredes, Enrique Vidal, IEEE Computer Society

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 7, pp. 1100-1110 , July 2006

Keywords: Weighted distances, nearest neighbor, leaving-one-out, error minimization, gradient descent.

最近傍識別ルールの精度を最適化するために重み付け距離を提案する。これは自動的に対応する重み付けを学習するアルゴリズムに沿ったものである。これらの重み付けはそれぞれのクラス、特徴、そしてそれぞれのプロトタイプ若しくはそれらの両方に特有のものであろう。この学習アルゴリズムは、与えられたトレーニングセットの(近似的)Leaving-One-Out識別誤りを最小化することで導出される。大きな次元性を持つ非常に疎なデータ表現を内包するテキスト識別という、特殊なタスクにおいて提案アプローチを検証する。これと同じように提案アプローチをuci/statlogコーポラを用いた一連の実験により検証する。これらの実験のいずれでも、提案アプローチは良好な挙動を示し、同時に、これまでのところ、同じデータに対する最新のアルゴリズムによる結果と同等、若しくはより良い結果を得ている。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所高感度ハッシュ処理と結合三次元シグネチャ空間推定を用いた、高速オブジェクトインデクス付け
Rapid Object Indexing Using Locality Sensitive Hashing and Joint 3D-Signature Space Estimation

Bogdan Matei, IEEE, Ying Shan, IEEE, Harpreet S. Sawhney, IEEE, Yi Tan, IEEE, Rakesh Kumar, IEEE, Daniel Huber, IEEE, Martial Hebert, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 7, pp. 1111-1126 , July 2006

Keywords: Three-dimensional object recognition, hashing, indexing, pose estimation, approximate nearest neighbor.

高速なオブジェクトインデクス付けのための新しい方法を提案する。この方法では特徴に基づいた方法と、疎なアライメントに基づいたマッチング技術を結合させる。我々のアプローチは、モデル数に関してほぼ線形の複雑性を達成している。これと同時に、殆ど設定を制御しない、実際の三次元空間において測定されたデータのための性能指標を、高い次元で保っている。我々の方法の重要な部分は、確率論的近似最近傍法である局所感度ハッシュ(Locality Sensitive Hashing:LSH)を用いて、顕在特徴の位置における表面記述子をモデルデータベース全体に対してインデクス付けすることである。累進的な複雑性を持つ幾何拘束条件を用いて初期候補の更なる刈り込みを行い、表面記述子の不正確性に起因する偽対応とLSHアルゴリズムの誤りを削減する。結合三次元信号空間において推定されたモデルの事後確率を用いたMAP則に基づいてインデクス付けされたモデルを選択する。大規模な車のデータベースを用いた実際の三次元データを使用した実験により、隠蔽、掩蔽、モデル化されていない車のインテリア、そして部分的な発音の場合にも提案手法が高性能を発揮することを示す。実験で使用したデータベースに登録された画像は、殆どが類似性の高い画像であり、365種類を超える数のモデルからの100万を超える特徴を含んでいる。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ユークリッド距離変換のための脈動アルゴリズム
A Systolic Algorithm for Euclidean Distance Transform

Masafumi Miyazawa, Peifeng Zeng, IEEE, Naoyuki Iso, Tomio Hirata, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 7, pp. 1127-1134 , July 2006

Keywords: Euclidean distance transform, systolic array, hardware algorithm, image processing.

ユークリッド距離変換は画像処理における基本的な操作のひとつである。これは広くコンピュータビジョン、パターン認識、モーフォロジカルフィルタリング、及びロボティクスで用いられてきた。本稿では2N^2処理セル上の3NクロックのN¥times N二値画像のユークリッド距離マップを計算する脈動アルゴリズム(データを心臓の鼓動のように定期的に処理段に流し込むことで並列性を高めるためのアルゴリズム:訳者注)を提案する。このアルゴリズムはハードウェアリソースが削減できるように設計されている。特に乗算器が必要なく、それゆえVLSI実装において有利である。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


円形広視野角カメラ画像による動きからの構造推定
Structure from Motion with Wide Circular Field of View Cameras

Branislav Micu?ik, Toma? Pajdla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 7, pp. 1135-1149 , July 2006

Keywords: Omnidirectional vision, fish-eye lens, catadioptric camera, autocalibration.

本稿では完全に自動化された頑健な2視点からの幾何構造復元、自動較正、そして円形広視野角カメラによる画像における点対応からの、三次元メトリック再構成について述べる。我々は通常のパースペクティブのカメラでは達成し得ないような、180度以上の視野角を持つカメラに注目する。このようなカメラ構成を実現するレンズとしては、円形魚眼レンズNikon FC-E8 (183度)やSigma 8mm-f4-EX (180度)、もしくは湾曲円錐ミラーを搭載したレンズなどがある。ここで我々は自動較正のために円形視野と軸対象の画像投影を仮定する。広視野を持つカメラの多くは、それでもこの投影方法とそれに続く非線形画像マッピングによりモデル化することができる。この例としては前述の魚眼レンズと適切に構成された円錐ミラーを持つ反射屈折カメラがあげられる。多項式固有値問題を解くことで、少数の対応関係によりこれらのカメラのエピポーラ幾何を推定できることを示す。これにより、画像投影モデル及びエピポーラ幾何を見つけ、そして偽対応を含む一時的な対応関係から正しい点対応を選ぶために、RANSACの効率的且つ頑健な推定を利用することができる。実際の屈折反射カメラは往々にして僅かに中心がずれている。提案する近似中心モデルを含む自動較正が通常の場合、正しい点対応を得るのに充分よい性能を持つことを示す。この点対応は、正確な三次元再構成を得るための光束補正における正確な非中心モデルと共に用いることができる。非中心カメラモデルについて検討する。パラボラミラー及び球面ミラーを持った屈折反射カメラに対する検討結果を示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動き修復による画像フレーム全体の動画安定化
Full-Frame Video Stabilization with Motion Inpainting

Yasuyuki Matsushita, IEEE, Eyal Ofek, IEEE, Weina Ge, Xiaoou Tang, IEEE, Heung-Yeung Shum, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 7, pp. 1150-1163 , July 2006

Keywords: Video analysis, video stabilization, video completion, motion inpainting, sharpning and deblurring, video enhancement.

動画安定化は動画を利用した技術の中でも重要なものであり、目障りな画像のゆれ・ぶれを取り除くものである。動画安定化のための実用的且つ頑健なアプローチを提案する。このアプローチによりフルフレームの安定した動画が得られる。これまでの殆どの技法が、安定化された動画の画面サイズが入力動画の画面サイズよりも小さくなる弊害があったのに対して、我々の方法は、隣接フレーム画像データの局所整列(local aligning)により自然に失われた画像部分を補完することで、画像フレーム全体の動画を生成することが出来る。このために、動き刷り込み(motion inpainting)を提案する。これにより、補完の空間的、時間的な整合性を静的、動的画像領域両方の面で補強する。更に新規に開発した実用的なぶれ低減アルゴリズムにより、安定化画像における画像品質を向上させる。点像強度分布関数(point spread function)を推測する代わりに、我々の方法では、よりシャープな隣接フレームの画素を変換し補間する。本稿で提案する動画補完及びぶれ低減法は、完全な動画安定化処理の開発を可能にし、更にこの処理による出力画像の品質を、入力画像と同じレベルに保つことが出来る。我々の方法の効率を、広範な種類の動画を用いた大規模な実験により確認する。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


髪の検出と解析
Detection and Analysis of Hair

Yaser Yacoob, Larry S. Davis, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 7, pp. 1164-1169 , July 2006

Keywords: Human identification, face recognition, eigenfaces, hair detection.

我々は様々な人々を比較するために、髪の見えを測量する計算モデルを開発した。このモデル、及びその方法は、人認識及び画像インデキシングへの応用が可能である。自動髪検出アルゴリズムを説明し、その実験結果を報告する。髪の見えに関する多次元表現を示し、計算アルゴリズムについて説明を加える。524人の被験者による実験の結果について報告する。髪の特性を用いた人の同定を、固有顔(eigenface)に基づいた認識と比較する。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


対応関係を用いない球状画像からの回転補正
Rotation Recovery from Spherical Images without Correspondences

Ameesh Makadia, IEEE, Kostas Daniilidis, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 7, pp. 1170-1175 , July 2006

Keywords: Rotation estimation, signal processing, spherical imaging, alignment, registration, global motion estimation.

本稿では、対応関係を用いずに、球上に定義された画像から直接回転を推定する問題を取り扱う。本稿で提案する方法は大きな回転角の整合に特に有効であり、三次元形状整列に対して大きな効果が期待される。提案方法は原画像が回転した場合のユニタリマッピングの根底をなす球状調和係数に基づいている。二つの画像の相関は回転角の関数であり、原画像の球状調和係数の点毎積に等しいSO(3)フーリエ変換を持つことを示す。回転空間の解像度は、調和係数の展開のために選んだバンド幅に依存し、推定回転角はこの三次元discretized空間における直接検索により割り出される。回転シフト定理における調和係数の保存によりこの推定回転角の微調整を行う。オイラー角に関するシフト定理を分離する新たな方法を示し、反復手法による初期推定角の微調整における成果を示す。実験により、本手法が大きな回転角の推定に適していること、そしてバンド幅と球状調和係数の選択に依存性があることを示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


偏差の小さい平面上の動きからの反復的安定化法に基づいた動きと形状の復元
Motion and Shape Recovery Based on Iterative Stabilization for Modest Deviation from Planar Motion

Isao Miyagawa, IEEE Computer Society, Kenichi Arakawa, IEEE Computer Society

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 7, pp. 1176-1181 , July 2006

Keywords: Structure from motion, factorization method, planar motion, aerial image.

偏差の小さい平面上の動きの画像系列からの、カメラの動きと三次元形状を同時に復元可能な、反復的安定化法について述べる。この技法は平面運動に基づいて因数分解法を反復的に適用する。本技法はカメラの動きを安定化させることで、観測された画像中の点を、平面運動条件下で投影された二次元の点に近づけることができる。提案手法をヘリコプターから撮影された空撮画像に適用し、Christy-Horaudのパースペクティブ因子分解法よりも、動きと形状をより良く復元できることを示す。更に復元されたカメラの動きと三次元計上から計算される再投影誤差が、光束補正により得られた最適な解に非常に近いことを確認する。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.28, No.8


現代の印刷文書におけるフォントに対応する単語インデックス付け
Font Adaptive Word Indexing of Modern Printed Documents

Simone Marinai Emanuele Marino Giovanni Soda

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 8 , pp. 1187-1199 , 8 2006

Keywords:

現在のOCRでは認識が困難な現代の印刷文書の単語レベルのインデックス付けのための手法を提案する。単語レベルのインデック ス付け手法において、文書中の単語の位置の検索が可能であるため、検索用の質問に単語の近似性を含ませることも可能である。こ のようなインデックス付けが可能なウェブ検索エンジンであれば、テキストの内容に基づくページの検索が可能になる。今日では、文 書画像をブラウジングして検索するか、あるいは、ドメインの専門家によって収集された適宜なメタデータを利用するかによって検索可 能なデジタルライブラリには、保存された多数のデジタル文書を持っている。単語インデックス化ツールによってこれらのデータへのア クセスを増加させるだろう。本提案システムは、文字認識のためにOCRエンジンに頼ることなく自動的に多様な言語やフォントに適応 し、均一の文書をインデックス化するよう設計されている。この方法は3つの主要なアイデアに基づいている。1)教師無し文字クラスタ リングのために自己組織化マップ(SOM)を実行する。2)単語のアスペクト比(縦横比)に依存するサイズのベクトルによる単語表現を定 義する。3)隣接文字やストロークが切れている文字に対処するため、検索用質問語をインデック化した単語で整列する。このシステム の最も適した用途は17世紀から19世紀の近世に印刷された、現在のOCRではそれほど認識率が高くない文書である。我々の実験 解析では、17世紀の書籍から現代の雑誌まで6種類のデータ集合を含んでいる。

ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフ編集距離のバイナリー線形計画法による定式化
A Binary Linear Programming Formulation of the Graph Edit Distance

Derek Justice Alfred Hero

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 8 , pp. 1200-1214 , 8 2006

Keywords:

頂点属性を有する重みのない、無向グラフのグラフ編集距離のためのバイナリー線形計画法を導出し、これをグラフの認識問題に応 用する。一般的グラフ編集の定式化を利用してグラフ編集距離を導出し、個々の編集演算が計測可能ならコスト関数が距離尺度に相 当することが証明される。それから、このグラフ編集距離を計算するためにバイナリー線形計画法が導出され、さらに、バイナリー計画 法の解の上界と下界決定するための多項式時間法が求められたが、これには標準的な線形計画法と割当て問題(assignment problem)に応用することによって得られた。サンプル入力グラフと既知のプロトタイプデータベースを比較して認識する新規の応用問 題に対して、化学情報システムに適用した例を示す。色々な編集演算に伴うコストは、プロトタイプのデータベース中の最近傍対間距 離に適用し、最小正規化偏差基準を利用して選択された。新たな尺度は、化学構造式に適用した場合、従来の尺度に比べ極めて 良好に機能する。

ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パラメータ表現された近傍領域における曲線の特異性:抽出と応用
The Distinctiveness of a Curve in a Parameterized Neighborhood: Extraction and Applications

Yu Chin Cheng

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 8 , pp. 1215-1222 , 8 2006

Keywords:

曲線判定における承諾/拒絶の決定のための新規な曲線特徴量を提案する。この特徴量は、1パラメータのファミリーでモデル化さ れる近接曲線部分と比べた曲線の特徴を計測する。この独特の特徴量を抽出するために利用したHough変換による計算的枠組みは 精巧であり、これによる円や楕円の場合の特徴抽出器の例が与えられている。提案特徴量は効率よく抽出され、信号を偽信号から分 離するのに有効であることが示されている。円や楕円に対する実験結果から、この主張の効率と有効性が支持される。この結果は、更 に、提案特徴量はノイズへの弾力性も持っていることが実証された。

ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


クラスタリングへの重みづけについて
On Weighting Clustering

Richard Nock , Frank Nielsen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 8 , pp. 1223-1235 , 8 2006

Keywords:

教師無し繰り返し学習に関する最近の論文や特許は、クラスタリングの新しい潮流について強調している。これは基本的に重みによっ て事例に罰を与えることによって、何とかしてクラスタリングをクラスターの最も困難な点に向かわせようとするものである。原理的にこの 動機は、ブースティングアルゴリズムと呼ばれている強力な教師付き識別法との類推から来ている。しかし、この類似性への興味だけ では、実験的研究だけの実証に終わってしまうことになる。本研究は、私の知る限り、定式化を目指した最初の論文である。より正確 には、Bregman divergenceの制限付きの最小化法によってクラスタリングを処理する。重みの変更は予測完全対数尤度(expected complete log-likelihoods)の局所的偏差に依存する。理論的結果によると、ブースティングアルゴリズムに似た利点を持つとともに、k -mean法や、fuzzy c mean法(fuzzy k-mean法とも呼ばれている)、期待値最大化法や、k-harmonic mean法のような変形(重み付き) クラスタリング法をもたらす。彼らは、ほんの少しのデータ再重み付けでクラスタリング利点を示した。

ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所線形モデルのグローバルな配置による非線形画像多様体の学習
Learning Nonlinear Image Manifolds by Global Alignment of Local Linear Models

Jakob Verbeek

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 8 , pp. 1236-1250 , 8 2006

Keywords:

オブジェクトの幾何学的モデルに依存する方法ではなく、画素値の統計的モデルに基づく見かけ上の画像による方法がますます盛ん になってきた。多くの応用において、画像生成過程における自由度の数は画像の画素による自由度の数に比べて遥かに小さい。もし この自由度数を画素値として写像する滑らかな関数があれば、画像を画像空間に組み込まれた低次元多様体に閉じ込めることがで きる。次のような因子解析の確率的混合に基づく方法を提案する;1) このような多様体から得られた画像サンプルの分布密度をモデ ル化する、2)多様体のグローバルパラメータを復元する。多様体上の座標と画像の間のグローバルな非線型確率論的2通りの写像法 は、局所的には正しい線型写像をいくつか組み合わせることで求められる。我々は既存のパラメータ推定法を改良した方法を提案し、 本手法と自己組織化写像、生成的トポグラフィック写像法、そして因子解析混合法とを実験的に比較する。更に、この手法は同一多 様体の異なる組み込み法の間の写像を見つけるのにも応用できる。

ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確信度に基づく能動的学習
Confidence-Based Active Learning

Mingkun Li Ishwar K. Sethi,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 8 , pp. 1251-1261 , 8 2006

Keywords:

本論文では、広範囲の識別器を学習させる、新規な確信度に基づく能動的学習法を提案する。本手法は不確かなサンプルの同定と 注釈に基づく方法である。各サンプルの不確かさの尺度は、その条件付誤りで測定される。本手法は、既存の識別器の確率保存と順 位の性質を利用する。これは識別器の出力スコアを条件付誤りに較正する。その結果、各入力サンプルの不確かさ値を、識別器から の出力スコアによって推測することが出来、ユーザーが設定した閾値以上の不確かさを有するサンプルだけを選ぶことができる。この 提案手法が最適であるかどうかは保証出来ないが、効率が良いことは判明した。従来法と比べ、本手法は、余計な計算をしないでも 十分ロバストである。この方法による新規な能動的学習法をサポートベクトルマシンとして実装した。ビンの幅をダイナミックに設定する 方法と組み合わせ、サンプルの条件付誤りを正確に推定でき、本手法は本来の確率に適応できる。この手法は、広く利用されている 最小尤度能動的学習法に比べ、人工的なデータだけでなく、実データに対してもその有効性を示すことが出来た。

ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


レベル集合法に基づく追跡のためのダイナミックな統計的形状プライア
Dynamical Statistical Shape Priors for Level Set-Based Tracking

Daniel Cremers

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 8 , pp. 1262-1273 , 8 2006

Keywords:

最近、統計的形状知識をレベル集合に基づくセグメンテーション法に適用し、不十分で低いレベル情報に対処しようとしている。これら プライア(prior)はなじみのオブジェクトの識別を顕著に改善することが示されたが、他方、時間に対して静的な統計的形状プライアに 注目してきた。変形するオブジェクトを追跡するためには、ある種のシルエット(歩く人間のような)は、時間と共に大きく変形するかもし れない。本論文では暗黙的に表現された形状に対して動的な統計的学習モデルに挑戦する。これらが如何に統合されて、ベイズの 枠組みの中で動的で記憶を有する形状プライアとしてレベル集合に基づく画像系列セグメンテーションを導くかを示す。このような記 憶付き形状プライアによる、ノイズがあり、隠蔽のある状態で、見慣れた変形し易いオブジェクトの追跡を評価する。我々は、動的な形 状プライアと静的プライアの比較をし、純粋な変形モデル間の比較と、変形と歪みの結合モデル間の比較と、カメラフレーム間のノイズ レベルの関数としてセグメンテーションされたその精度を定量的に評価する。我々に実験ではレベル集合セグメンテーションと追跡法 は、変形する形状を特徴付ける連続するシルエット間の時間的相関を利用することで大きく改善される。

ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


サブクラス判別分析
Subclass Discriminant Analysis

Manli Zhu, Aleix M. Martinez

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 8 , pp. 1274-1286 , 8 2006

Keywords:

長年の間に、多くの判別分析(DA)アルゴリズムが提案され、高次元データの研究や、多様な問題に提案されてきた。これら各アルゴリ ズムは特定のデータ分布用に(手近にある問題を最も良くモデル化する)調整されている。残念ながらほとんどの問題において、各ク ラスの確率密度関数は事前に知られておらず、データに最も良く合うDAアルゴリズムは試行錯誤で選択される。理想を言えば、ほとん どの分布に対して有効な単一の分布関数を持ちたい。これを満たすためには各クラスの本来の関数を、ガウス関数の混合で近似する 必要がある。このため、クラス別にガウス関数の最適数を決める必要がある。これは部分クラスの数である。本論文では、各クラスの最も 好都合な分割のための2つの基準が導かれる。5つのデータベースを利用した徹底的な実験の結果が示されている。この結果との比 較は、線形判別分析(LDA)、直接LDA(DLDA), 不等分散LDA(HLDA),非パラメトリックDA(NDA),Kernel-Based LDA(K-LDA)との比 較がなされた。我々のテスト結果は比較した中で常に最高であった。

ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


反射の共有:既知形状の画像の疎な集合から、外形を推定する
Reflectance Sharing: Predicting Appearance from a Sparse Set of Images of a Known Shape

Todd Zickler, Ravi Ramamoorthi Sebastian Enrique Peter N. Belhumeur

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 8 , pp. 1287-1302 , 8 2006

Keywords:

空間的に変化する反射率関数から成る既知形状の3次元の外形モデルを利用して、合成と解析処理を繰り返すことで、多数の視覚 問題に取り組むことができる。このモデルの構成には反射率の測定と、既知形状の画像から空間的に変化している反射率を復元する 課題は、多数の興味を引いてきた。今日までの既存法は次の2つのいずれかに分かれる;1)低次元(すなわち、パラメトリックな)反射 率問題、あるいは、2)オブジェクト当たり、数千の画像を必要とする大きなデータ集合による問題の何れか、である。前者に基づく外形 モデルは精度と汎用性に限界があるが、その理由は、前もって特定の反射モデルを選んでおく必要がある一方、後者のモデルでは特 定のアプリケーションに向いていると思われるが、一般的に画像を画像解析に使うにはコストと手間が掛かり過ぎる。我々はこれに代わ る手法として、既存法を組合せ、少数の画像からノンパラメトリックな空間的に変化する反射関数を求める手法を紹介する。まず課題を 空間と角度が混在するデータ分散型内挿問題と位置づけ、実演を交えながら、空間解像度を犠牲にすることで復元反射関数の角度 分解精度が向上する理論を提示する。同時に、この内挿問題の解を、半径方向の基底関数に基づく実用的解として示す。この表現 の能力を、新規な視野と照明条件下で、実験的にどのように見えるかを予測し、評価した。その結果、表面反射率は、ある点から別の 点へとゆっくり変化すると推測されるので、画像の疎な集合からノンパラメトリックな反射関数が得られることになる。実際、場合によっ ては、たった一つの画像から比較的良好な結果が得られる。

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


情報理論と自由形状変形を利用したインプリシット空間における形状の位置あわせ
Shape Registration in Implicit Spaces Using Information Theory and Free Form Deformations

Xiaolei Huang, Nikos Paragios, Dimitris N. Metaxas

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 8 , pp. 1303-1318 , 8 2006

Keywords:

新規な、変動性で統計的手法による形状位置合わせ法を紹介する。目的の形状は、距離変換の高次元空間に間接的(陰に)に埋め 込まれている。この陰に埋め込まれた空間での位置合せは階層的定式化ができる。すなわち、相互情報基準によって多様な変換モ デルが可能であり、グローバルな位置合せ最適化が可能である。従って、Bスプラインに基づく逐次自由形状変形(Incremental Free Form Deformations (IFFD))を利用した誤差二乗和(SSD)最小化によって更に局所的非剛的位置合せ場が復元できる。この手法の重 要な利点は;1)自然な形で任意のトポロジー(多数パーツ、閉/開)次元の形状を扱える(2次元、3次元、それ以上も)、2)局所変形 中でも形状トポロジーを保存できるため、滑らかで連続的で、1対1対応可能な局所位置合せ場を生成することができる。実験によって 初期条件との不変性を評価し、困難な2D/3Dの幾何学的形状の位置合せ例を利用して、耐ノイズ性、耐隠蔽性、耐欠落部品性を示 す。この提案法の偉力を2つの応用例で示す;解剖学的構造の統計的モデルと、3D表面の走査位置合せと表現の追跡。このアルゴ リズムの効率をいくつかの他の良く知られた位置合せ方法と比較した。

ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオ画像から動物のモデルを構築する
Building Models of Animals from Video

Deva Ramanan, David A. Forsyth, Kobus Barnard,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 8 , pp. 1319-1334 , 8 2006

Keywords:

本論文は追跡オブジェクトの認識とモデル構築はすべて類似作業であることを論じる。我々が述べるのは全自動のシステムであり、動 物のビデオから2D絵画構造を持つ明瞭なモデルを構築する。学習モデルを利用してビデオから動物を検出するが、この意味でシス テムは一般化追跡器と言うこともできる(オブジェクトを追跡しながらモデルを形成する)。学習したモデルは画像ライブラリーと合致さ せることもできる。この意味ではシステムはビデオ認識アルゴリズムとも見なせる。学習されたモデルは新規な画像からの動物検出に 利用することもできる。この視点ではオブジェクト認識のための学習モデル手法とも見なせる。テクスチャーライブラリーから学習した絵 の表現テクスチャーモデルを増加させ、絵の構造を大きく改善することが可能であることが分かった。新規なテクスチャー記述法を開発 し、動物テクスチャーの最新法を凌駕することができた。全体のシステムを3種の動物ビデオに適用した。与えられた動物を自動手金 い追跡・認識することを示す。この学習モデルをプロのカメラマンが撮影した2つの画像の動物認識に利用した;一つはCorel collectionと、他方はGoogleの検索で得られたWebの整理された画像である。両方のデータベースに対する実演結果は極めて満足 の行くものだった。我々の結果と単純な基本的手法と比較し、Google集合に対しては、認識の困難なオブジェクトを検出し、場所を同 定し、復元し、部分ごとに分離した。

ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般化カメラモデルと従来の広角や、魚眼レンズのための、較正方法
A Generic Camera Model and Calibration Method for Conventional, Wide-Angle, and Fish-Eye Lenses

Juho Kannala, Sami S. Brandt,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 8 , pp. 1335-1340 , 8 2006

Keywords:

広い視覚が必要な用途には魚眼レンズは便利であるが、これを計測に利用するとなると、精度や一般化や使いやすい較正法のない ことから問題であった。ここに一般化カメラモデルを提案し、これが魚眼レンズだけでなく、通常のカメラや広角レンズカメラのモデルパラ メータの較正に有効な方法を紹介する。達成した較正精度のレベルは、以前に報告された最新の手法と同程度である。

ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オンライン手書きの表お認識
Table Detection in Online Ink Notes

Zhouchen Lin, Junfeng He Zhicheng Zhong Rongrong Wang Heung-Yeung Shum,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 8 , pp. 1341-1346 , 8 2006

Keywords:

文書中での表は、統計的情報や関係情報を表現する重要な構造化オブジェクトである。本論文では自由形式でオンライン手書きさ れた表を検出することが可能で、表の構造を抽出し、多用途に編集可能なロバストなシステムを紹介する。第1に基準線や囲み枠の 候補である表の初歩的構造を手書き線の中から抽出する。第2に、表の論理的構造決定に、表の骨格を正規化し、この骨格構造を認 識し、セルの中の記述内容を抽出する。認識プロセスは決定木と同じであるから、不適当な候補は迅速に取り除かれる。実験の結果 、我々のシステムはロバストで、複雑な構造を持ったり、込み入った状況で書かれた表の処理も高精度であることが予想される。

ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オフラインによる手書きタイ文字のための相互情報の最大化
Maximization of Mutual Information for Offline Thai Handwriting Recognition

Roongroj Nopsuwanchai Alain Biem William F. Clocksin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 8 , pp. 1347-1351 , 8 2006

Keywords:

本論文はHMM(隠れマルコフ)によるオフライン手書きタイ文字の認識システムの効率改善を目指したものであり、そのために識別法 の学習と、細かく調整された特徴抽出法を利用した。識別学習は、データとそのクラス間の相互情報量を最大化する方法と関連して いる。識別法の学習のため実装化された方法は、ブロックに基づくPCAと合成画像から成っており、タイ文字の間違えられやすいも識 別しやすくなっている。その結果認識率、以前に検査したときより大きく向上した。とくに認識率の大幅な向上がみられた(以前の方法 では、識別法にもとづいて、最適化されてない)。

ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオ画像から動物のモデルを構築する
Affine-Invariant Geometric Shape Priors for Region-Based Active Contours

Alban Foulonneau Pierre Charbonnier Fabrice Heitz

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 8 , pp. 1352-1357 , 8 2006

Keywords:

参照形状に関連して、領域に基づく能動的輪郭の進化を制約する新規な方法を紹介する。特徴関数のルジャンドルモーメント( Legendre moments)に基づく形状記述子間の距離で定義される形状プライアを最小化することによって、2クラスセグメンテーション応 用に有利に利用できる幾何学的フローが求まる。この形状モデルには、姿勢による変形やアフィン変形に関する本質的不変量が含ま れている。

ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.28, No.9


紀元前1650年の壁画の構成の判定
Determination of the Method of Construction of 1650 B.C. Wall Paintings

Constantin Papaodysseus, Dimitrios K. Fragoulis, Mihalis Panagopoulos, Thanasis Panagopoulos, Panayiotis Rousopoulos, Mihalis Exarhos, Angelos Skembris

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9, pp. 1361-1371 , September 2006

Keywords: Image line pattern analysis, archaeological image edge analysis, archaeological object reconstruction, curve fitting, statistical pattern matching.

本稿では仮にアーティストが多数の“型”を使用して絵画を描いたか、フリーハンドで描いたかを決める問いに答えるための、一般的適用性を持った方法論を示す。実際には、型に潜在的に対応する描画オブジェクトの輪郭線の部分にまずスポットを当てる。その後これらの型の正確な形状と見えを、絵画全域にわたり決定する。本方法は名高いThera Late Bronze Age壁画に適用され、素晴らしい成功を収めた。アーティストもしくはアーティストグループが、7つの幾何学的な型と、これらに対応する7つの良好に構成されたステンシル(刷り込み型)(4つの双曲線、2つの楕円、そして1つのアルキメデスの螺旋)を用いて、紀元前1650年に"Gathering of Crocus”壁画を描いたことが示されている。この描画方法は、絵画の歴史でもユニークであるようだ。また数学や科学の歴史に対するのと同じように、考古学的にも非常に重要である。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


階層ベイズフィルタを用いたモデルベースの手の動き追跡
Model-Based Hand Tracking Using a Hierarchical Bayesian Filter

Bjorn Stenger, IEEE, Arasanathan Thayananthan, Philip H.S. Torr, IEEE, Roberto Cipolla, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9, pp. 1372-1384 , September 2006

Keywords: Probabilistic algorithms, video analysis, tracking.

本稿では、三次元の手の動きを画像系列から復元するために用いられる、追跡フレームワークを設計する。本方法は初期化、追跡、そして復元を統一された形式で取り扱う。手の姿勢に関する事前情報なしの場合、単一の入力画像に対して、手の姿勢候補が直ぐに破棄されることがほとんどない階層的な検出スキームと本アルゴリズムは等価である。画像系列において動的モデルを用いることで、検索をガイドし、最適なフィルタリング方程式に近似させる。動的モデルはパラメタ空間の領域間の遷移確率により与えられる。関節でつながれた剛体として手の動きを捉えることにより、トレーニングデータを得、これを用いてモデルを学習させる。散乱した背景と、自己隠蔽領域を持つような手の動きを含む、多数の画像系列において本アルゴリズムを評価する。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


情報理論的学習を用いた特徴抽出
Feature Extraction Using Information-Theoretic Learning

Kenneth E. Hild, IEEE, Deniz Erdogmus, IEEE, Kari Torkkola, Jose C. Principe, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9, pp. 1385-1392 , September 2006

Keywords: Feature extraction, information theory, classification, nonparametric statistics.

一般的に識別システムというのは特徴抽出器(前処理段)と識別器の両方を持つものである。これらの二つのコンポーネントは、独立もしくは同時に訓練することができる。独立に訓練することは実装面でメリットがある。これは、どのような識別器でも用いることができるような出力を前提として、特徴抽出器をただ一度訓練するだけでよいためである。他方、同時訓練は直接識別誤りを最小化するために用いることができることにメリットがある。最小識別誤り(Minimum Classification Error)などの特定の評価基準は、同時訓練により適しており、他の評価基準、たとえば相互情報(Mutual Information)は、特徴抽出器を独立に訓練するか同時に訓練するかに影響を受けやすい。この点を考慮して、情報理論的評価基準を導入し、抽出器独立訓練のために評価した。提案方法はRenyiのエントロピーのノンパラメトリック推定を用いて抽出器を訓練する。これはクラスラベルと特徴抽出器の出力との間の相互情報の近似を最大化することで行われる。これらの評価により、提案方法が独立訓練を用いているにもかかわらず、最低でも同時訓練を用いる3つの特徴抽出法と同等の性能を持つことが示される。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


拡散マップと疎な解像:次元性削減、グラフ分割、そしてデータセットパラメタ化のための統合フレームワーク
Diffusion Maps and Coarse-Graining: A Unified Framework for Dimensionality Reduction, Graph Partitioning, and Data Set Parameterization

Stephane Lafon, Ann B. Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9, pp. 1393-1403 , September 2006

Keywords: Machine learning, text analysis, knowledge retrieval, quantization, graph-theoretic methods, compression (coding), clustering, clustering similarity measures, information visualization, Markov processes, graph algorithms.

非線形次元性削減、クラスタリング、そしてデータセットパラメタ化が、単一かつ共通のフレームワークで解けることを示す根拠を与える。中心となるアイディアは、与えられたデータセットの接続性を反映し、ノイズに対して頑健な、明示的距離と共に座標系を定義することである。マルコフランダムウォークに基づく我々の構成は、固有の幾何特性を用いて、グラフ及び高次元空間の任意形状のデータの、再構成とサブサンプリングを同時に行う一般的スキームを与える。埋め込み空間におけるクラスタリングが圧縮演算子と等価であることを示す。データ分割とクラスタリングの目的は、ランダムウォークを疎に解像させることである。これと同時に本質的な幾何特徴もしくはある程度の精度のデータの接続性のための拡散演算子も保持する。拡散空間における量子化歪みがこの演算子の圧縮誤差の境界となることを示す。これにより拡散空間におけるk平均法クラスタリングの厳密な正当化を行い、一般的なクラスタリングアルゴリズムの性能の正確な尺度を与える。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


特徴対応とデジタル地形図からの姿勢と動きの復元
Pose and Motion Recovery from Feature Correspondences and a Digital Terrain Map

Ronen Lerner, Ehud Rivlin, IEEE, Hector P. Rotstein, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9, pp. 1404-1417 , September 2006

Keywords: Pose estimation, vision-based navigation, DTM, structure from motion.

対応する特徴とデジタル地形図(Digital Terrain Map: DTM)を用いた、姿勢と動きの推定のための新しいアルゴリズムを提案する。デジタル地形図(もしくはデジタル高度図: Digital Elevation Map: DEM)を大域的リファレンスとして用いることで、動き復元のための視覚に基づいたアルゴリズムが持つ曖昧さを排除することができる。結果としてカメラの絶対座標系における位置と方位が、系外の参照位置(リファレンスフレーム)に対する情報として復元される。これを行うために、DTMを用いて、連続する二つのフレームにある対応する特徴間の拘束条件の定式化を行う。提案手法は三次元世界の明示的な再構築を必要としない。特徴点の数を考慮すると、位置、方位、そして動きに関する非線形最適化を用いることで、結果として得られる拘束条件を解くことができる。このような手順においては、これらのパラメタの初期値を推測する必要がある。これは推測航法(船舶などで天測位置によらない航法のこと。ここでは絶対座標系からの情報によらない推測を指すものと思われる:訳者注)的情報、もしくは他のいかなる情報源からでも推測することができる。このアルゴリズムの実現可能性を大規模な実験により確立させる。中間的に三次元構造を再構築し、それをDTMに登録するような他の最新アルゴリズムと、提案アルゴリズムの性能を比較する。様々なシナリオにおいて、提案アルゴリズムの明確な優位性を例証する。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


可変照度モデルのための最小二乗メディアン(LMedS)法を用いた頑健なオプティカルフロー推定の誤り解析
Error Analysis of Robust Optical Flow Estimation by Least Median of Squares Methods for the Varying Illumination Model

Yeon-Ho Kim, Avinash C. Kak

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9, pp. 1418-1435 , September 2006

Keywords: Optical flow, robust estimation, varying illumination, least median of squares method, error analysis.

オプティカルフローと呼ばれる、画像系列における明確な画素運動は、自動シーン解析のための有用なプリミティブであり、コンピュータビジョンにおいて様々な応用分野を持つ。しかし一般的に、オプティカルフロー推定は2つの大きな問題を抱えている。即ち、時間変動する照明の問題と、他のオブジェクトもしくは背景との関係で発生するオブジェクトの動き不連続の問題である。これら二つの問題を解くための様々な統合的アプローチが提案されてきた。無論、これらのうちでは最小二乗メディアン(LMedS)法に基づいたものが最も頑健であるようだ。本稿の目的とするところは、2つの異なるLMedS法に基づいたアプローチの誤り解析を行うことである。ひとつは標準的なLMedS回帰に基づいたものであり、他方は最近提案された前者の改良版である。どのようなアプローチでもノイズレベルの上昇にしたがって推定精度が低下することが予想される。しかし、どの程度の性能低下が、ごく少数のランダムに選択されたサンプルを用いて一時的な解を得ることに起因するかは、必ずしも常に明らかであるわけではない。この問いに答えるために、我々の研究では画像データの全てを動き推定に用いるベースライン実装を含んでいる。そして上記二つのLMedS法に基づいた方法と、ベースライン実装の推定誤りの比較を行う。我々の誤り解析により、ガウシアンノイズの場合には、適度のノイズ量の場合には我々の改良版LMedSアプローチがより良い推定を与えることを示す。ただしノイズレベルが増大した場合には、標準的LMedS法がより優れた性能を示す。ごま塩ノイズ(salt-and-pepper noise)の場合には、改良版LMedS法が、標準的LMedS法よりも常に良い性能を示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


近似ベイズ多体追跡
Approximate Bayesian Multibody Tracking

Oswald Lanz, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9, pp. 1436-1449 , September 2006

Keywords: Computer vision, tracking, occlusion, approximate inference, Bayes filter, particle filter.

複数のターゲットの視覚的追跡は難しい課題であり、特に計算効率が問題となる。隠蔽は、それが適切に扱われない場合、追跡失敗の主なる原因となる。通常の隠蔽の理由付けのための方法が既に提案されているが、オンラインアプリケーションに対しては未だ実用的ではない。本稿では、信頼できるモデリングと計算効率のトレードオフを効果的に管理できる新しい方法を示す。この問題の結合ベイズ定式化から、ハイブリッドJoint-Separable(Hybrid Joint-Separable:HJS)フィルタを導出する。そしてコンパクトな確信度表現の意味において最適であることをもとに、この方法が効率的であることを示す。結合確率のダイナミクスに対してマルコフ確率場近似を用いること、そして事後の更新に増分アルゴリズムを適応することにより、高い計算効率が達成される。この更新では、隠蔽過程の物理ベースのモデルを実現する見えの尤度を用いる。部分隠蔽の場合に高精度な追跡を可能とする部分フィルタ実装を提案する。これにより完全な隠蔽の場合には、追跡のための仮説を用いて隠蔽値の推定を行う。実験結果により提案アルゴリズムが効率的で、頑健、且つ外見が同一の複数のターゲット間の長期間の隠蔽を解くことができることを示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


統計的動きパターンの学習のためのシステム
A System for Learning Statistical Motion Patterns

Weiming Hu, Xuejuan Xiao, Zhouyu Fu, Dan Xie, Tieniu Tan, IEEE, Steve Maybank, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9, pp. 1450-1464 , September 2006

Keywords: Tracking multiple objects, learning statistical motion patterns, anomaly detection, behavior understanding.

動きパターンの解析は異状検出や行動予測のための効果的なアプローチである。現在の動きパターンの解析のためのアプローチは、オブジェクトが予め決められた動きをするという、既知のシーンへの依存性がある。シーンの情報を反映するオブジェクトの動きパターンの自動的構成が求められている。本稿では、異状検出と行動予測のための動きパターン自動学習のためのシステムを示す。この異状検出と行動予測は、複数オブジェクトの頑健な追跡のための提案アルゴリズムに基づいている。この追跡アルゴリズムでは、高速高精度ファジーk平均アルゴリズム(K{¥hbox{-}}¥rm means)を用いて前景画素をクラスタ化する。前景画素のクラスタ重心の発達と予測により、各クラスタ重心が、シーン内の動いているオブジェクトに関係付けられていることを保障する。動きパターン学習のためのシステムにおいて、空間及び時間情報を用いることで軌道を階層的にクラスタ化し、そして各動きパターンをガウス分布のチェーンにより表現する。この、学習された統計的動きパターンに基づいて、異状検出と行動予測のために統計的方法を用いる。我々のシステムを、獲得された画像系列を用いて試験する。この画像系列は、混雑した実際の交通シーンとモデル交通シーンそれぞれからのものである。本追跡アルゴリズムの頑健性、動きパターン学習のためのアルゴリズムの効率性、そして異状検出と行動予測のためのアルゴリズム良好な性能を、実験の結果により示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ランダム化されたツリーを用いたキーポイント認識
Keypoint Recognition Using Randomized Trees

Vincent Lepetit, Pascal Fua, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9, pp. 1465-1479 , September 2006

Keywords: Image processing and computer vision, object recognition, tracking, statistical, classifier design and evaluation, edge and feature detection.

多くの三次元オブジェクト検出と姿勢推定問題において、実行時間性能はきわめて重要である。しかし、通常システムには訓練期間があり、本稿ではこの訓練期間を非常に便利なものとして示す。幾つかの登録されたターゲットオブジェクトの画像が利用可能であると仮定し、キーポイントに基づいたアプローチを開発した。入力画像から抽出されたキーポイントを、モデル画像中のそれとマッチングする、識別問題として広範なベースラインマッチングを定式化することで、このアプローチはこのコンテキストにおいて効果的なものとなっている。これにより、認識性能を犠牲にすることなく、計算的な負荷の多くをトレーニングフェーズにシフトすることができる。これにより、結果として得られるアルゴリズムは、頑健かつ高精度、そしてフレームレート性能において充分速い。本研究における第一の研究成果は、実行時間計算複雑性の削減である。第二には、このコンテキストにおいて、簡単且つ高速なキーポイント検出器が、パースペクティブとスケールが大きく変わる場合においても検出と追跡のサポートとなることを示すことである。従来の方法が非常に再現性の高い結果を与える検出器を必要としていたのに対し、(これは一般的には非常に時間を食う)、我々は、単純に、特定のターゲットオブジェクトのための最も出現率の高いオブジェクトキーポイントを、トレーニングフェーズで見つける。我々はこれらのアイディアを、平面、非平面、そして変形可能オブジェクトを検出する実時間システムに取り入れる。そしてこれにより、剛体の姿勢とその他のオブジェクトの変形を推定する。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二層分割のための、色及びコントラストと、ステレオ情報の確率的融合
Probabilistic Fusion of Stereo with Color and Contrast for Bilayer Segmentation

Vladimir Kolmogorov, IEEE, Antonio Criminisi, Andrew Blake, IEEE, Geoffrey Cross, Carsten Rother

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9, pp. 1480-1492 , September 2006

Keywords: Computer vision, 3D/stereo scene analysis, image processing and computer vision, computer vision, parameter learning, dynamic programming.

本稿は、ステレオ画像系列における前景レイヤーと背景レイヤーの実時間分割のためのモデルとアルゴリズムを示す。色/コントラストもしくはステレオ情報単独からの自動レイヤー分離は、間違いのおきやすい問題として知られる。ここで、高精度且つ効率的にレイヤーを推測するために、色、コントラスト、そしてステレオマッチング情報を融合する。最初のアルゴリズム、即ち階層的動的計画法(Layered Dynamic Programming:LDP)により、拡張された6状態空間におけるステレオ問題を解く。この空間は前景レイヤー/背景レイヤーの両方、そして隠蔽領域を表現する。次にステレオマッチング尤度を、コントラスト感度カラーモデルに融合する。このモデルの学習はon-the-fly(その場)で行われ、動的計画法により視差を算出する。第二のアルゴリズム、即ち階層的グラフカット法(Layered Graph Cut:LGC)は、このステレオ問題を直接解くわけではない。その代わり、前景と背景の仮説を評価するために、ステレオマッチング尤度を視差よりも重要度の低いものとして扱う。そしてこの尤度を(LDPでの扱いと同じように)コントラスト感度色モデルと融合する。分割問題は、三重グラフカットにより効率的に解くことができる。これら両方のアルゴリズムを、正解データに関して評価する。この評価により両者が同等の性能を持つことが示される。これらの性能は、ステレオ情報、もしくは色/コントラスト情報それぞれの単独のものよりも、確実に良い。しかし計算効率に関してのこれらのアルゴリズムの特性は、むしろまったく異なっている。これらのアルゴリズムを背景置換のアプリケーションにおいて例証し、また、これらのアルゴリズムが高品質の合成ビデオ出力を与えることを示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最尤近似と効率的な多段階レベルセットによる局座標画像分割
Polarimetric Image Segmentation via Maximum-Likelihood Approximation and Efficient Multiphase Level-Sets

Ismail Ben Ayed, IEEE, Amar Mitiche, IEEE, Ziad Belhadj, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9, pp. 1493-1500 , September 2006

Keywords: Polarimetric images, complex Wishart distribution, complex Gaussian distribution, level set active contour segmentation, maximum-likelihood approximation.

本研究では、複雑な局座標画像分割のためのレベルセット法を検討する。この方法は、最尤近似および、複雑なWishart/ガウシアン画像表現から算出されたオリジナルの観測項を含む汎関数の最小化と、典型的な境界長に関する事前知識からなる。この汎関数の最小化は新しい多段階法により効率的に行われる。この方法は単純な区分拘束条件をカーブ展開に直に埋め込むことで、任意の初期区分から、画像ドメインの区分を保証する。合成画像と実画像における実験の結果を示す。定量的性能評価と比較試験もあわせて示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数画像の確率解釈に基づいた新しい凸性測量
A New Convexity Measure Based on a Probabilistic Interpretation of Images

Esa Rahtu, Mikko Salo, Janne Heikkila

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9, pp. 1501-1512 , September 2006

Keywords: Shape analysis, object classification, affine invariance.

本稿では、オブジェクト形状解析のための新しい凸性測量を示す。提案手法は、セットから点の組を生成し、対応する線分を分ける点が同じセットに属する確率を計測する。この測量は、形状を表す画像関数に直接適用可能であり、画像二値化を近似するグレースケール画像にも適用可能である。本アプローチはオブジェクト形状に関してより多くの情報を得ることを可能とする様々な凸性測量の元になる。提案する測量は高速フーリエ変換を用いて簡単に実装可能であることがわかった。本稿ではこの特徴についても詳細に説明する。最後に様々なシチュエーションでの我々の測量の振る舞いを示し、他の類似の測量との比較を行う。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


歩行者のビデオ画像を用いたカメラ較正
Camera Calibration from Video of a Walking Human

Fengjun Lv, IEEE, Tao Zhao, IEEE, Ramakant Nevatia, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9, pp. 1513-1518 , September 2006

Keywords: Camera calibration, self-calibration, vanishing point, vanishing line, human tracking.

同じ長さの縦方向の線分からの情報を用いる、カメラの内部及び外部パラメタの自己較正法を示す。足の交差フェーズにおいて歩行者の頭部と脚部の位置を検出することで、必要とされる線分を得るアルゴリズムについて述べる。実験結果により提案方法が、様々な視角や対象に対して、高精度且つ頑健であることを示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


可変照明環境における顔認識のための全変動モデル
Total Variation Models for Variable Lighting Face Recognition

Terrence Chen, IEEE, Wotao Yin, Xiang Sean Zhou, IEEE Computer Society, Dorin Comaniciu, IEEE, Thomas S. Huang, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9, pp. 1519-1524 , September 2006

Keywords: Face and gesture recognition, signal processing, image processing and computer vision, pattern analysis.

本稿では可変照明環境下での顔認識のための対数全変動(logarithmic total variation:LTV)モデルを示す。この可変照明環境には、光の強度、方向、光源数について予め知ることが殆どできないような自然光条件も含む。提案するLTV法は、単一の顔画像を自由に因子分解し、照明不変顔形状を得る能力を有する。そしてこの照明不変顔形状を用いて顔認識を行う。我々のモデルはSQIモデルからアイディアを得たものであるが、より良いエッジ保持能力を持っており、またパラメタの選択もより単純である。本モデルのメリットは、照明に関する仮説や、いかなる訓練も必要としないことである。屋外の照明条件における765の顔画像を含むYale及びCMU PIE顔画像データベースにおける試験で、LTVモデルは非常に高い認識率を達成した。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


実時間輪郭追跡のためのマルチキューHMM-UKF
Multicue HMM-UKF for Real-Time Contour Tracking

Yunqiang Chen, Yong Rui, Thomas S. Huang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9, pp. 1525-1529 , September 2006

Keywords: Parametric contour, HMM, unscented Kalman filters, joint probabilistic matching.

我々は空間ドメインにおける複数の視覚的キューに基づいた輪郭検出のためのHMMモデルを提案し、背景の散乱の影響を抑制するための結合確率的マッチングにより、このモデルの性能を向上させる。フィルタ特性がフラットな(unscented)カルマンフィルタを用いて、頑健な輪郭追跡のための非線形系でのオブジェクトの力学を明らかにする。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動的アクションの統計的解析
Statistical Analysis of Dynamic Actions

Lihi Zelnik-Manor, Michal Irani, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9, pp. 1530-1535 , September 2006

Keywords: Action recognition, video indexing, temporal segmentation.

実世界でのアクション認識アプリケーションでは、高速且つ、アクションのタイプ、最低限必要とされるパラメタ数、学習段の最短長に関する事前知識なしに多種多彩なアクションを扱うことができるシステムが求められている。本稿ではそのような特性を実現するアプローチを示す。本研究では、動的アクションを、複数の時間スケールにおける時空間特徴により特徴付けられる長期間にわたり時間変動するオブジェクトとしてとらえる。これに基づいて、アクションに関する類似性を測る、ビデオ画像系列間の単純な統計的距離測量をデザインする。この測量はノンパラメトリックであり、それゆえ多くの種類の複雑な動的なアクションを取り扱うことができる。ビデオインデクス付け、時間的分割、そしてアクションに基づいたビデオクラスタリングなどの様々なタスクに、このアクションに基づいた画像系列間の距離測量を用いることができる。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.28, No.10


コンピュータビジョン応用のための非線形の「変数に含まれる誤差モデル」推定
Estimation of Nonlinear Errors-in-Variables Models for Computer Vision Applications

Bogdan C. Matei, IEEE Computer Society, Peter Meer, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 10, pp. 1537-1552 , October 2006

Keywords: Nonlinear least squares, heteroscedastic regression, camera calibration, 3D rigid motion, uncalibrated vision.

変数に含まれる誤差(EIV)モデルにおいては、すべての測定値はノイズによって劣化する。このEIVモデルクラスにおける制約条件が、1つは変数だけに含まれ、他方はパラメータだけに含まれる場合で、これは2つの非線形関数の積の形に分離可能であり、ほとんどのコンピュータビジョン問題を表現するのに十分な一般性を有する。このような非線形EIVモデルの推定は点依存性、すなわち、不等分散性ノイズ過程を持つ線形モデルを逐次推測する問題に帰する。この不等分散性変数に含まれる誤差 (HEIV)の推定は、ビジョンに関する他の手法である、Sampson法とか、繰り込みとか、基本的な数値計算法に関連している。多様な課題においても、HEIV推定法は、これらと同等か、それ以上の性能を示し、非線形モデルの標準的手法であるLevenberg-Marquardt法よりも初期値依存性が少ない。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


体に装着したマイクロフォンと加速度計を利用して組み立て作業を能動的に認識する
Activity Recognition of Assembly Tasks Using Body-Worn Microphones and Accelerometers

Jamie A. Ward, IEEE, Paul Lukowicz, IEEE, Gerhard Troster, IEEE, Thad E. Starner, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 10, pp. 1553-1567 , October 2006

Keywords: Pervasive computing, wearable computers and body area networks, classifier evaluation, industry.

保守作業や組み立てなどの手作業労働者で携帯電話利用者に関連情報を提供するために、利用者が特定の動きをすることにあわせた情報を体に装着したコンピュータに入力する必要がある。本研究は手の動きとそれに伴う音の認識に焦点を当てる。体に装着したセンサーで組立てや保守作業中での適当な動きを見つけることができる。我々は模擬的な木工作業の演習を利用して手本となる動きを調査した。この方法を動きの連続的認識に利用した(のこぎり引き、ハンマー打ち、詰め込み、ドリル開け、削り、サンドかけ、引出し開け、万力締め、木ねじの回転)が、そのためにユーザーの腕の2点に装着したマイクロフォン、3次元加速度計を利用した。連側的な動きから2箇所で検出された音の強度解析を利用して、興味ある動きを切り出すことができた。これら切り出されたデータに対して音のチャネル上で線形判別法と、加速度データ上で隠れマルコフモデルを利用して動きの識別を行った。このあと、識別器改善のために、4つの異なる識別器の融合法を比較した。ユーザー依存型学習によって連続的平均リコール率と精度が、それぞれ78%と74%と得られた。ユーザー独立学習では、(1点除去比較法)によってリコール率が66%、精度が63%となった。また、ユーザー依存型、ユーザー独立型、ユーザー追従型のそれぞれに対して認識精度はそれぞれ98%、87%、95%であった。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


エネルギー最小化のための収束性再重み付け木によるメッセージ伝達
Convergent Tree-Reweighted Message Passing for Energy Minimization

Vladimir Kolmogorov, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 10, pp. 1568-1583 , October 2006

Keywords: Energy minimization, graph algorithms, message passing, belief propagation, early vision, Markov random fields, stereo.

離散的エネルギー最小化アルゴリズムはコンピュータビジョンにおいて極めて重要である。本論文では、Wainwrightたちによって提案された、再重み付け木による最大積メッセージパス(伝達)法の最新技術に注目する。この考えはエネルギー下限を最大化する課題から思いついた。しかし、このアルゴリズムはこの下限を増加させる保障はないかもしれず、下限を下げることも考えられる。さらに、TRWは収束するとも限らない。我々はこのアルゴリズムを変形した逐次的再重み付け木によるメッセージパス法を開発し、これをTRWと呼ぶことにする。このアルゴリズムの主要特徴の一つに、限界が減少しないことが保障されていることがある。また、限界の局所最大化を与える弱い木の合意条件がある。このアルゴリズムが弱い合意木を達成する限界点を証明する。最後に、このアルゴリズムは従来法のメッセージ伝達法に比べて半分のメモリーしか要らないことを示す。合成データと実データによる実験からは我々の信念伝播法も、重み付け木の方法も、どちらも凌駕することを示す。更に、この方法をステレオ問題に適用したとき、グラフカットよりも少ないエネルギーで達成できる証拠を見つけた。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3次元のモデルに基づくオブジェクト認識法と複雑な情景からのセグメンテーション
Three-Dimensional Model-Based Object Recognition and Segmentation in Cluttered Scenes

Ajmal S. Mian, Mohammed Bennamoun, Robyn Owens

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 10, pp. 1584-1601 , October 2006

Keywords: Multiview correspondence, registration, 3D object recognition, segmentation, 3D representation, shape descriptor, geometric hashing.

オブジェクトと視点に依らない認識法と、複雑で隠蔽のある画像からのセグメンテーションはやりがいのある困難な課題である。我々はこの課題を自動的で効率的に処理する新規な3次元のモデルに基づくアルゴリズムを紹介する。モデルの3次元モデルは複数の非順序画像からオフラインで自動的に構成される。これら視野画像は複数次元の表表現に変換される。これをテンソルと比較する。これら視野画像間の対応関係は、視野画像と残りの画像とのテンソルマッチングで自動的に成立するが、このときハッシュテーブルによる投票を利用する。これらの結果は相対変換グラフの形で視野画像を登録し、そして、継ぎ目の無い3次元モデルが組み立てられる。これらモデルとテンソルはモデルライブラリーの部品と成る。オンライン認識中において情景画像のテンソルは、ライブラリーの情景とマッチングされ投票される。投票の最大票が類似度となる。最大類似度のモデルが情景画像に変換され、これが情景中のオブジェクトと正しく並んでいれば、このオブジェクトは認識されたと見なされセグメントされる。この処理は情景画像中のオブジェクトがなくなるまで続けられる。合成画像55枚と、実画像610枚の両方についての実験から、全体的認識率は95%を達成した。スピン画像と比べ、本アルゴリズムは認識率と効率の上から優れていることが判った。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


形状マッチングのための積分不変性
Integral Invariants for Shape Matching

Siddharth Manay, Daniel Cremers, IEEE, Byung-Woo Hong, Anthony J. Yezzi, IEEE, Stefano Soatto, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 10, pp. 1602-1618 , October 2006

Keywords:

積分操作で得られる閉じた平面状輪郭による形状表現法ではユークリッド群での不変な汎関数のクラスを紹介する。このような積分不変数は、微分演算に比べていくつかの望ましい性質を持っており、例えば、計算の局所性(そのため隠蔽部のマッチングも可能となる)、表現の唯一性(漸近近似性)、微分のようなノイズは伴わないため、前処理平滑化は不要である。我々の定式化では多様なスケールで形状解析できる。積分不変性に基づき、形状間の距離を定義する。提案する距離尺度は効率よく計算することができ、曲がった反りや形状境界を互いに重ねることができる。最適な対応点での計算結果が中間結果となる。形状マッチングの数値計算結果から、このようなマッチングの枠組みは部分的変形や部分的欠落、ノイズがあっても有効であることを示している。定量的解析から、形状データベースの中から、形状検索に対するマッチング得点が求まる。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


回転フォレスト:新規な識別器アンサンブル法
Rotation Forest: A New Classifier Ensemble Method

Juan J. Rodriguez, IEEE Computer Society, Ludmila I. Kuncheva, IEEE, Carlos J. Alonso

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 10, pp. 1619-1630 , October 2006

Keywords: Integral invariants, shape, shape matching, shape distance, shape retrieval.

特徴抽出に基づく識別器集合を生成する新規な方法を提案する。ベースとなる識別器の学習用データを作るために、特徴量集合をランダムにK個の部分集合に分割する。ここでKは本アルゴリズムのパラメータとする。そして各部分集合に対して主成分分析を施す。すべての主成分は保存され、データの変化の評価に利用される。そしてK個の軸の周りの回転をさせ、ベース識別器の新規の特徴量が生成される。回転させるのは、個々の識別精度を向上させ、識別器集合中の変動を大きくさせるためである。ここで決定木を利用するが木は特徴量軸の回転に敏感であるためである。複数の木を利用する関係で、これをフォレスト(森)と称した。すべての主成分を保持し、すべてのデータでベース識別器を学習させ、精度を調べた。UCIデータベース中の33個のベンチマークデータをランダムに選び、回転森の集合をバギング法、アダブースト法、ランダムフォレスト法と比較した。その結果、回転フォレスト法が良好でモデル集合の中で変動と精度の観点からの選択する手法の有効性が期待される。変動ー誤差の図表から回転フォレストの集合は、アダブースト法よりもっと高精度で、バギング法より変動幅の大きく時にはもっと高精度の個々の識別器を構成している。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


トレース変換からのアフィンパラメータの推定
Affine Parameter Estimation from the Trace Transform

Alexander Kadyrov, Maria Petrou, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 10, pp. 1631-1645 , October 2006

Keywords: Image registration, affine transform, trace transform, object matching, parameter estimation.

本論文では、2枚の画像が与えられ、1つはアフィン変換によって他方の画像の歪んだものになっているとし、2枚の画像間の変形パラメータを推定することを目的とする。また、2枚の画像は全体の照度は必ずしも一致していないとする。複数の変数があっても推定してみよう。我々はこのような問題の一般的な理論的枠組みを示す。この枠組みに他のモデルも取り入れることができる。隠蔽や照明変動などの多様なノイズに対してもアフィンパラメータを推定可能なことを示そう。本手法は汎用性が高く、同一でない情景やオブジェクトに対しても対応付けが可能である。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフモデルと点パターンのマッチング
Graphical Models and Point Pattern Matching

Tiberio S. Caetano, Terry Caelli, IEEE, Dale Schuurmans, Dante A.C. Barone

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 10, pp. 1646-1663 , October 2006

Keywords: Point pattern matching, graph matching, graphical models, Markov random fields, junction tree algorithm.

本論文はユークリッド空間内の任意の次元における剛体の点マッチングに関する新規な解法について述べる。対象は剛体的動きのみであるがジッター(細かい揺れ)は許容する。我々の手法は非繰返し的、多項式オーダーの計算時間であり、ノイズが無い場合は最適解が見つかることが保障されている。第1に点パターンマッチングのモデルは重み付きグラフマッチング問題と規定し、重みはノード間のユークリッド距離とする。続いて、グラフマッチング問題をグラフモデルにおける最大確率構成問題とみなし定式化する。グラフの剛体的構成を前提に疎なグラフモデルはノイズ無しの場合は全結合モデルに一致することを証明する。このことから、多項式時間で計算可能でノイズ無しの2つの点集合場合の正確なマッチングの場合には多分最適と思われる次のようなアルゴリズムが求まる。近似マッチングの場合は、正確な場合と同じアルゴリズムを利用して、最適に近い解が得られるであろう。我々の方法による実験結果は、現在の方法の改良が示され、特に異なるサイズのパターンマッチングにおいて、この手法は有効である。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像系列解析のためのニューラルネットワークによる新規性検出
A Neural Network-Based Novelty Detector for Image Sequence Analysis

Markos Markou, IEEE, Sameer Singh, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 10, pp. 1664-1677 , October 2006

Keywords: Novelty detection, neural networks, video analysis, object classification, feature extraction and selection.

本論文では、ニューラルネットワークによる画像系列解析で新規な”新規性検出器”を提案する。本モデルでは人為的に生成した否定的データを利用して、多層パーセプトロンによる閉じた決定境界を求める。ニューラルネットワークの出力は、クラス毎のネットワーク出力を閾値処理して新規かどうかを判定する。新規なクラスターのラベル付けの後、新しいネットワークがこのデータによって学習される。多くの新規なクラスを含むビデオの画像系列データによって実験を行った。新規フィルターの性能は2つの性能尺度によって評価し、我々の提案モデルをこれら5つのベースライン検出器と比較した。また、新規性検出の後、このモデルの学習結果についても考察した。カイ2乗検定によって5%有意レベルで我々の最適新規性検出器の性能は、誤検出の無い理想的検出器と同程度であることがわかった。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


意味のパスファインダー(先導者):遺伝的マルチメディア索引付けにオーサリングのメタファーを使いながら
The Semantic Pathfinder: Using an Authoring Metaphor for Generic Multimedia Indexing

Cees G.M. Snoek, IEEE, Marcel Worring, IEEE, Jan-Mark Geusebroek, IEEE, Dennis C. Koelma, Frank J. Seinstra, IEEE, Arnold W.M. Smeulders, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 10, pp. 1678-1689 , October 2006

Keywords: Video analysis, concept learning, benchmarking, content analysis and indexing, multimedia information systems, pattern recognition.

我々はマルチメディア保存文書を対象にした一般的なインデックス付けのための意味づけを探るパスファインダー(先導者)の基本設計について述べる。意味づけのためのパスファインダーはビデオから意味のある内容を抽出するが、そのためには次の3つの連続解析ステップによる異なる経路を探索する。このステップは、ビデオの製作が著作活動の結果であると言う観察から得られたものである。この著作というメタファーを、自動機械的な理解方式として活用する。パスファインダーは内容理解ステップから始まる。この解析ステップでは、内容のインデックス化のためにデータ駆動型の手法を利用する。スタイル解析ステップは2番目の解析ステップである。ここではインデックス化のためにビデオをプロダクション形式で解釈する。最後に内容解析ステップでは内容の意味を見つける。意味づけのパスファインダーの利点は、コンセプト毎に最適の解析経路を学習できるという点だ。この新規なインデックス化の一般性を評価するために、32個のコンセプトの用語集のための検出器を開発し、64時間のニュース番組2004NIST TRECVIDビデオ検索ベンチマークに対してパスファインダーを評価した。意味コンセプトの検索がトップになった結果から、マルチメディア情報の一般的インデックス化に一般的なこのパスファインダーの利点がわかる。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


標準相関解析を利用した高速能動的見かけモデル探索
Fast Active Appearance Model Search Using Canonical Correlation Analysis

Rene Donner, Michael Reiter, Georg Langs, Philipp Peloschek, Horst Bischof

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 10, pp. 1690-1694 , October 2006

Keywords: Image processing and computer vision, active appearance models, statistical image models, subspace methods, medical imaging.

標準相関解析に基づく高速AAM(Active Appearance Model;能動的外見モデル;CCA-AAM)探索アルゴリズムを紹介する。これは探索中のテクスチャー残差とモデルパラメータの依存関係を効率的にモデル化する。実験によると、CCA-AAMは実装化には努力が必要なものの収束速度は標準的手法に比べ4桁も高速となる。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3D顔認識のための、表情が変化する条件下での多数の鼻領域マッチング
Multiple Nose Region Matching for 3D Face Recognition under Varying Facial Expression

Kyong I. Chang, Kevin W. Bowyer, IEEE, Patrick J. Flynn, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 10, pp. 1695-1700 , October 2006

Keywords: Biometrics, face recognition, three-dimensional face, facial expression.

顔表現が変化する条件下で、3D顔認識アルゴリズムを提案する。これは鼻の周りの多数のオーバーラップ領域のマッチングスコアを組み合わせたものである。4000を超える画像走査と449件の項目について、最大のデータベースを利用した3Dの顔認識研究の実験結果を示す。その結果、単一の大きな正面顔領域のマッチングに比べ、ずっと改善されたマッチング形状が得られた。これは表情の変化を解決するために、鼻の周りの多数のオーバーラップ領域を利用すると言う最初の試みである。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


興味ある対象画像の自動抽出のための、局所-大域的逐次エネルギー最小化手法
Iterative Local-Global Energy Minimization for Automatic Extraction of Objects of Interest

Gang Hua, IEEE, Zicheng Liu, IEEE, Zhengyou Zhang, IEEE, Ying Wu, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 10, pp. 1701-1706 , October 2006

Keywords: Variational energy, level set, semisupervised learning.

画層から興味あるオブジェクトを自動抽出するために、新規な大域-局所変動エネルギー法を提案する。以前の定式化では局所領域のポテンシャルエネルギーだけを定式化したものであり、これは繰返し演算中に画素識別を誤ると影響が大きかった。これを改良するため、大局的な類似度ポテンシャルを導入し、前景と背景のモデルによって推定法を改良し、結果としてより良い抽出ができた。詳細な実験によって、この効果が実証できた。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


空間的に時間的にオーバーラップしたイベントの解析を画像系列に応用
Analysis of Spatially and Temporally Overlapping Events with Application to Image Sequences

Guillermo Ayala, Rafael Sebastian, Maria Elena Diaz, Ester Diaz, Roberto Zoncu, Derek Toomre

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 10, pp. 1707-1712 , October 2006

Keywords: Temporal Boolean model, 3D Boolean models, germ-grain models, coverage processes, functional data analysis, endocytosis, total internal reflection fluorescence microscopy.

画像系列中で空間的にあるいは時間的にオーバーラップした領域で数を数え、形状やサイズや継続時間を推測することは、応用によっては重要なことである。我々は確率的なモデルを提案し、特別な場合として時間的ブールモデルという不均一な3Dブールモデルで、この解析を行う。ある確率的な性質が導かれ、時間的次元をきちんと扱うことによって経時的画像を提案することによってパラメータの推定法を提案する。単位面積と単位時間当たりの平均の細菌数と、平均の塊の大きさ、継続時間の分布が求まる。提案推定法の正当性を評価するために広い範囲でのシミュレーション研究がなされ、有望な結果が得られた。このモデルは生体細胞中での生物学的画像系列に応用され、細胞内の出来事に対する平均個数とか継続時間分布などの新たなパラメータを推定できた。我々の結果によれば、提案する時間ブールモデル手法は短時間処理であるが空間的時間的にオーバーラップしたイベントの動的なプロセスの情報を得るのに有効である。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.28, No.11


屋外色識別の学習
Learning Outdoor Color Classification

Roberto Manduchi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 11, pp. 1713-1723 , November 2006

Keywords: Color constancy, classification, expectation maximization.

明示的な明度推定と補正を伴う色識別のためのアルゴリズムを示す。単一画像から採取した複数の色サンプルでガウシアン識別器を訓練する。そして対角照明モデルを用いて、訓練画像にある幾つかの表面クラスを含む新しいシーンの光源を、期待値最大化(Expectation Maximization: EM)アルゴリズムを用いた最尤推定フレームワークで推定する。光源に関する事前確率をどのようにして利用するか、そして効率的に最大事後確率推定を計算する方法についても示す。実験の結果により、屋外画像に対する我々の識別アルゴリズムの性能を示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一筆書きの手書き画像からの筆順復元のためのフレームワーク
A Framework Toward Restoration of Writing Order from Single-Stroked Handwriting Image

Yu Qiao, IEEE, Mikihiko Nishiara, IEEE, Makoto Yasuhara, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 11, pp. 1724-1737 , November 2006

Keywords: Handwriting recognition, writing order restoration, edge continuity relation, temporal information, graph matching, Euler path.

一筆書きの手書き画像からの筆順復元は、そのグラフ表現における最もスムースなパスを見つける問題として捉えることができる。本稿ではエッジ連続性関係(Edge Continuity Relation:ECR)フレームワークにおける筆順復元のための3フェーズ構成のアプローチを提案する。第一の、局所処理フェーズでは、偶数次ノードにおいて、潜在的ECRを得るために、4次ノードに対してニューラルネットワークを使用する。また幾つかの合理的な仮定を導入することで、4次以上のノードに対する理論的アプローチを示す。第二フェーズでは、最大加重マッチングを適用することで二重になっているラインを同定する。これにより奇数次ノードにおいて潜在的ECRを得る問題を、偶数次における問題に転化することができる。最後の大域処理フェーズでは、深さ優先探索により全ての一筆書きパス候補を洗い出し、SLALOM平滑性を評価することで、最良のパスを選択する。Unipenデータベースのオンラインデータから変換した静止画像に対する実験により、我々の方法が96.0パーセントの復元率を達成することを示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Ziheng Zhou, Adam Prugel-Bennett, Robert I. Damper, IEEE
A Bayesian Framework for Extracting Human Gait Using Strong Prior Knowledge

人間の歩行パターンを抽出するための、強度の事前知識を用いたベイズフレームワーク

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 11, pp. 1738-1752 , November 2006

Keywords: Bayesian framework, strong prior, articulated motion, human gait, hidden Markov model.

複雑な実世界環境において、単眼画像系列から歩く人の全身動作の抽出は重要且つ困難な問題であり、単純なトラッキングにおける問題よりもはるかに難しい。そして通常、トラッキング問題の実用的な解法は、事前知識の利用とデータからの学習の間の適切なバランスを要求する。我々は強度の事前知識を人間の歩行パターン抽出システムで利用するために、整合性のあるベイズフレームワークを提案する。本研究では、時間不変量(静的)と時間変量(動的)パラメタの両方を持つ簡明なモデルにより強度の事前知識を構築する。このモデルは簡単に修正することができ、それにより、歩行者が四肢をはっきりさせないような服装をしている場合などに対応できる。高品質データ(屋内の研究室)から、上記パラメタの統計量を学習する。そしてベイズフレームワークにより、典型的な散乱した屋外シーンにおけるノイズを含む画像からの、高精度歩行パターン抽出を開始することができる。自動フィッティングを実現するために、隠れマルコフモデルを用いて、入力された画像が歩行サイクルのどのフェーズにあるかの検出を行う。高品質な屋内環境で取得された画像系列、及びノイズを含む屋外条件で取得された画像系列の両方から抽出された、顔の正面と平行な横向きの(fronto-parallel)("sideways on”)歩行者のシルエット画像系列において、我々のアプローチを実例により示す。合成ノイズ及び隠蔽を付与した高品質データと同じように、リュックサックを背負った歩行者や、スカートやトレンチコートを着た歩行者についてもテストを行った。実験結果はchamfer distance距離、及び抽出されたボディ点と対応する手動でラベル付けされた点との間の平均画素誤差に換算して数量化される。本システムを構成するそれぞれの部品には新規性が無いが、フレームワーク全体としては、これまでの研究が入力画像に求めていた品質よりも、非常に低品質な画像系列からの歩行パターン抽出を可能にしている。この結果は、我々の方法と、既に確立されたベースラインとなる認識アルゴリズムとを歩行パターンによる個人同定タスクにおいて比較した結果により確認される。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ファジーマルコフ確率場対マルチスペクトラル画像分割チェーン
Fuzzy Markov Random Fields versus Chains for Multispectral Image Segmentation

Fabien Salzenstein, IEEE, Christophe Collet, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 11, pp. 1753-1767 , November 2006

Keywords: Fuzzy Markov field, fuzzy Markov chain, parameterized joint density, multispectral image segmentation, missing data

本稿では最近のファジーマルコフ確率場や、マルチスペクトラル画像分割チェーンに基づいた統計モデルの比較を行う。このファジースキームは隠れたデータの不正確性をモデル化する離散及び連続クラスを考慮に入れている。このフレームワークにおいては、我々はバンド間の依存性を想定し、共分散行列のための一般的なモデルを明示する。ファジーマルコフチェーンモデルを教師なし学習により構成する。このモデルを、以前に本稿著者の一人により提案されたファジーマルコフ確率場モデルと比較する。分割タスクは、よく知られたMPM (Mode of Posterior Marginals)基準などのベイズ確率のツールを用いて処理される。本研究における我々の目的は、頑健性と敏捷性の両方を、これら二つの方法(ファジーマルコフ場対ファジーマルコフチェーン)において比較することである。もちろんこのようなファジー理論に基づいた過程は、この目的に向けた良い解法に見える。観測されるパターンが拡散構造を示す場合の天文分野における観測などがこれにあたる。更にこれらのアプローチにより、失われたデータをひとつもしくは複数のバンドで処理することができ、これらは天文分野における特定の状況に相当する[1]。これら両方の方法を検証するために、合成画像及び天文学分野におけるマルチスペクトラル画像データの分割タスクを実行し、両者を比較する。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像分割のためのランダムウォーク
Random Walks for Image Segmentation

Leo Grady, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 11, pp. 1768-1783 , November 2006

Keywords: Image segmentation, interactive segmentation, graph theory, random walks, combinatorial Dirichlet problem, harmonic functions, Laplace equation, graph cuts, boundary completion.

マルチラベルを許す反復的な画像分割を実行するための新しい方法を示す。本方法では、与えられた少数の画素とユーザが定義したラベル(もしくは予め定義されたラベル)を用いて、ラベル付けされていない画素からスタートするランダムウォークが、この予めラベル付けされた画素にたどり着く確率を、解析的且つ高速に決定することができる。計算された確率が最大となるラベルを各画素を割り当てることで、高品質な画像分割が得られるだろう。このアルゴリズムの理論的な特性は、離散ポテンシャル理論(discrete potential theory)と電気回路の対応関係に沿っている。このアルゴリズムは離散空間(たとえばグラフ)において、連続ポテンシャル理論(continuous potential theory)における標準演算子と原理の組み合わせ類似性を用いて定式化される。これにより、本方法は任意のグラフにおける任意の次元に対して適用可能となる。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


拡散マップによるデータ融合とマルチキューマッチング
Data Fusion and Multicue Data Matching by Diffusion Maps

Stephane Lafon, Yosi Keller, Ronald R. Coifman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 11, pp. 1784-1797 , November 2006

Keywords: Pattern matching, graph theory, graph algorithms, Markov processes, machine learning, data mining, image databases.

データ融合とマルチキューデータマッチングは高次元データ解析における基礎的なタスクである。本稿では、これらのタスクを扱うために、近年導入された拡散フレームワークを適用する。我々の主な研究の成果は3つある。まず様々なデータソースを統合する要となる密度不変量埋め込みを計算するためのLaplace-Beltramiアプローチを示す。次に“幾何的調和”と呼ばれるNystr?m拡張アルゴリズムの改良を与える。最後に非線形スペクトラルグラフ整列に基づいたマルチキューデータマッチングスキームを導入する。読唇術の問題と画像系列整列に適用することで、提案したスキームの効果を検証する。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ランダムな初期化を基準にしたk-平均法によるクラスタ集合の安定性の評価
Evaluation of Stability of k-Means Cluster Ensembles with Respect to Random Initialization

Ludmila I. Kuncheva, IEEE, Dmitry P. Vetrov

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 11, pp. 1798-1808 , November 2006

Keywords: Clustering, cluster ensembles, stability and diversity, cluster validity.

クラスタ集合を含む多くのクラスタリングアルゴリズムは確率過程を含む部分に依存している。様々なクラスタリングにおける結果の安定性はアルゴリズムの長所とみなされている。ここで考慮されるクラスタ集合はk-平均法クラスタ器に基づいている。それぞれのクラスタ器は、ランダムなクラスタターゲット数kを与えられ、ランダムに初期化される。ここで我々は10の人工データセット、及び10の実データセットを用いて、ランダムなk、及びランダムな初期化に関してクラスタ集合の安定性を検証する。これらのデータセットは、少数のクラスタ(2ないし7)及び適切な数のデータ点(数百まで)を持つように選ばれる。組毎の安定性は、クラスタ集合におけるクラスタ器の対の間の調整されたRand指標として定義され、全ての対の平均を取る。非組毎の安定性は、クラスタ集合のコンセンサス行列のエントロピーとして定義される。kを2から20の間で振って、標準的なk-平均法アルゴリズムとの実験的な比較を行った。実験結果によりクラスタ集合は一般的により安定しており、特に大きなkにおいて顕著である。安定性をクラスタの有効性指標として利用可能かどうかを明らかにするために、まずクラスタ数kに関して安定性と精度の関係性を調査した。我々はこの関係性がデータセットに大きく依存することを見つけた。これは、ほぼ完全な正の相関(ガラスのデータに対して0.97)から、ほぼ完全な負の相関(カニのデータに対して-0.93)までの振れ幅がある。我々は、組毎の各個の安定性指標と、クラスタ集合の安定指標の和となる新しい安定性指標の組み合わせを提案する。この指標が、クラスタ集合の制度に対してより良い相関を与えることがわかった。データ中の構造に、クラスタリングアルゴリズムの安定性の一点が対応するという仮説に従い、安定性測量を、クラスタ数を算出するために用いる。組み合わせ安定性指標が最も良い結果を示した。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2つの独立データセットからのROC解析を用いた識別器の評価:ノンパラメトリックアプローチ
Assessing Classifiers from Two Independent Data Sets Using ROC Analysis: A Nonparametric Approach

Waleed A. Yousef, IEEE, Robert F. Wagner, IEEE, Murray H. Loew, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 11, pp. 1809-1817 , November 2006

Keywords: Classification, nonparametric statistics, ROC analysis.

本稿では、二値識別を検討する。ROC曲線下の領域(Area Under the ROC Curve:AUC)に関して識別器の評価を行う。我々は3つの重要なパラメタを推定する。すなわち条件付AUC(パラメタ訓練集合に対する条件付)、そしてこのAUCの平均および分散である。これと同様に反復処理項を含まない形式(closed form expression)でのAUCの推測器の分散の表現を導出する。この表現は、分散のいくつかの部分を表し、その推測の不確定性がどこから来るのかを理解するのに役立つ。さらにこの分散、すなわち条件付AUC推測器の分散を推定する。我々のアプローチはノンパラメトリックなものであり、U統計量からの一般的な方法に基づいている。このU統計量は、データ分布が未知で、かつモデル化されていない場合、および二つの利用可能なデータセット、すなわち訓練集合と試験集合しかない場合を扱う。最後にこれら3つの推測器に対するいくつかのシミュレーションの結果を示す。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オプティカルフローの三次元分割と解釈:動的曲線発展とレベルセットを用いた変分法
Optical Flow 3D Segmentation and Interpretation: A Variational Method with Active Curve Evolution and Level Sets

Amar Mitiche, IEEE, Hicham Sekkati

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 11, pp. 1818-1829 , November 2006

Keywords: Optical flow, 3D segmentation, 3D interpretation, level sets, image sequence analysis.

本研究は、密集した三次元分割と、移動カメラにより撮影された運動する剛体を含む画像系列におけるオプティカルフローの解釈のための、動的曲線展開に関する変分法について調査する。この方法は、三次元動き分割、三次元解釈(三次元構造と動きの復元)、そしてオプティカルフロー推定を同時に行う。目的汎関数は、各分割領域に対して二つのデータ項を含む。ひとつは動きのみに基づいた方程式であり、これは三次元剛体運動とオプティカルフローの本質的なパラメタを関連付ける。他の項はHornとSchunckのオプティカルフロー拘束条件に関するものである。これは更に各領域に対して二つの正規化項を含む。ひとつはオプティカルフローのためのものであり、他方は領域境界のためのものである。上記汎関数の最小値のために必要とされる条件は、結果として、レベルセットを経た動的曲線展開による三次元動き分割、各領域の本質的なパラメタの線形推定、そしてオプティカルフローを同時にもたらす。結果としてこれらの本質的なパラメタとオプティカルフローから各領域に対して三次元動きのねじれと相対奥行きが解析的に復元される。本方法とその実装を検証するための例を与える。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


稠密な照度差ステレオ法:マルコフ確率場アプローチ
Dense Photometric Stereo: A Markov Random Field Approach

Tai-Pang Wu, IEEE, Kam-Lun Tang, Chi-Keung Tang, IEEE, Tien-Tsin Wong, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 11, pp. 1830-1846 , November 2006

Keywords: Photometric stereo, Markov random fields, belief propagation, graph cuts, normal and surface reconstruction, robust inference, real-time relighting.

本稿では複雑な外形、影、ハイライト、透過、光の強度の変化する減衰、そして光の方向の不正確な推定がある場合の、稠密な照度差ステレオ法からの頑健な法線復元問題を取り扱う。ノイズを含む稠密な照度画像を入力とする。この入力画像は、デジタルビデオカメラ、球形反射鏡、そして手持ちのスポットライト、というきわめてシンプルな構成により取得することができる。稠密な照度差ステレオ問題を、マルコフネットワークとして定式化し、マルコフ確率場(Markov Random Fields:MRFs)のための二つの重要な推測アルゴリズムを調査する。これらは即ちグラフカット法と確信度伝播(belief propagation)であり、これによりネットワーク上の各ノードのセッティングを最適化する。グラフカットアルゴリズムにおいては、MRF定式化をエネルギー最小化の形式のひとつに変換する。親和性関数として不連続を保持したメトリクスを導入する。これにより効率的に事後確率最大化(maximum a posteriori:MAP)推定を行うためのα拡張が可能となる。同じ稠密な入力と、同じMRF定式化を用いて、我々のテンソル確信度伝播アルゴリズムは、入力に含まれる不連続を保ったまま、信頼に足る法線方向を算出することができる。またこれにより、離散的な法線方向推定を、連続的なものに改良することができ、計算に必要とされるストレージの容量と計算時間を劇的に削減することができる。複雑なシーンに対して両方のアルゴリズムは、同等かつ非常に信頼性の高い法線推定を与える。グラフカット法での不連続保持メトリクスにより、理論的に保証された最適離散ラベルの推測を、効率的に計算することができる。しかしテンソル確信度伝播を用い充分な精度の解に収束する我々の推測アルゴリズムでは、これよりも更に計算が速い。これはアルゴリズム内部でやり取りされるメッセージが非常にコンパクトであることによる。非常に有望な法線推定実験の結果を示す。我々の方法で推定された法線マップから、表面を復元するための簡単なアルゴリズムを提案する。この復元表面により、逆過程、即ちコンピュータグラフィックにおける再照明ができる。これによりユーザが指定した光源とその方向を元に与えられたシーンから新たに合成画像を作成する。最新のGPU(graphics processing unit)を利用することで、この合成過程は実時間で計算できるようになっている。我々の方法は以前の再照明法にくらべ多くのユニークな利点を示し、多くの種類の新たな光源とその方向に適用することができる。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


形状と見えの複数の統計モデルの重み付き融合のためのフレームワーク
A Framework for Weighted Fusion of Multiple Statistical Models of Shape and Appearance

Constantine Butakoff. Alejandro F. Frangi, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 11, pp. 1847-1857 , November 2006

Keywords: AAM, ASM, model fusion, statistical model, segmentation.

本稿はいくつかの動的形状および動的見えモデルの重み付き融合のためのフレームワークを示す。このアプローチはHallら[1]により提案された固有空間融合法に基づいている。これは非バイアス平均および共分散行列推定を用いた、2つ以上の重み付き固有空間の融合に拡張されてきた。融合の性能を評価するために、顔認証試験と同じように領域分割においてAR、EQUINOX、およびXM2VTSデータベースを用いて比較検証を行う。この結果に基づいて、モデルがオンラインアップデートを必要とする場合、もしくは最初の観測データがない場合に、この融合が有用であると結論付ける。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔の曲線を用いた三次元顔認識
Three-Dimensional Face Recognition Using Shapes of Facial Curves

Chafik Samir, Anuj Srivastava, Mohamed Daoudi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 11, pp. 1858-1863 , November 2006

Keywords: Facial curves, shape analysis, geodesic paths, 3D face recognition, range images.

顔認識を目的とした顔表面の形状について研究する。主なアイディアは、1)顔曲線(facial curve)と呼ばれる奥行き関数のレベルカーブの結合により表面を表すこと、2)顔曲線の形状を用いて暗示的に表面形状の比較を行うこと。後者は微分幾何アプローチを用いて実行される。これにより形状の多様体上の、閉じた曲線間の測地線(局面上の二点を結ぶ最短の距離、線:訳者注)の長さを計算する。フロリダ州立大とノートルダムの2つの三次元顔データベースにおいて最近傍識別器を用いて、これらのアイディアを実証し、特に高い認識性能にハイライトを当てる。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


歩行者識別についての実験的検討
An Experimental Study on Pedestrian Classification

S. Munder, D.M. Gavrila

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 11, pp. 1863-1868 , November 2006

Keywords: Pedestrian classification, feature evaluation, classifier evaluation, performance analysis.

画像中の人間を検出することは、コンピュータビジョンにおいて幾つかの重要なアプリケーションドメインで非常に重要な役割を果たす。本稿は歩行者識別について詳細な実験的検討を行う。複数の特徴識別期の組み合わせについてROC性能と効率に関して検討する。PCA係数、Haarウェーブレット、そして局所受容野(local receptive fields:LRF)により例示されるような、大域特徴と局所特徴、そして適応的特徴と非適応的特徴の比較を検討する。識別器という意味においては、一般的なサポートベクトルマシーン(Support Vector Machines:SVM)、フィードフォワードニューラルネットワーク、k最近傍識別器を考慮する。4000の歩行者と25000以上の非歩行者(ラベル付き)画像からなる大規模なデータベースにおいて実験を行う。これらの画像は屋外の都市環境で撮影されたものである。訓練集合とテスト集合を変化させることによる性能の変化を解析することで、統計的に意味のある結果が得られた。更に識別性能と、トレーニングサンプルサイズがどのように関連しているのかについて検討する。手動でラベル付けされた訓練データの数を増やすこと、もしくは自動ブートストラッピングもしくはカスケード法を用いることで、サンプルサイズを調整する。我々の実験結果はSVMとLRF特徴の新しい組み合わせが最も良い性能であることを示している。しかしHaarのウェーブレットのブーストカスケードは、非常に僅かな計算コストにもかかわらず、これに迫る性能を示す。本稿で使用されたデータセットは一般に公開されており、この重要な問題のためのベンチマークを構成している。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


頑健且つ誘導的サポートベクトルクラスタリングのためのクラスタ構造の動的特徴づけ
Dynamic Characterization of Cluster Structures for Robust and Inductive Support Vector Clustering

Jaewook Lee, IEEE, Daewon Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 11, pp. 1869-1874 , November 2006

Keywords: Clustering, kernel methods, support vector machines, inductive learning, dynamical systems.

サポートベクトルクラスタリングによる位相幾何学的及び動的な、クラスタ構造の特徴づけを開発する。各クラスタがbasinレベルの構成物セルにまで分解できること、そして同クラスタが拡大されたクラスタドメインに自然に拡張可能なことを示す。このクラスタドメインは誘導的クラスタリングのための基盤として用いることができる。単純化された、クラスタに関する位相幾何学的構造を保持した重み付けグラフも同じく構築し、これを用いて頑健且つ誘導的なクラスタリングアルゴリズムを開発する。シミュレーションの結果により、提案方法の頑健性と効果が示される。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


k最近傍グラフを用いた高速な凝集型クラスタリング
Fast Agglomerative Clustering Using a k-Nearest Neighbor Graph

Pasi Franti, Olli Virmajoki, Ville Hautamaki

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 11, pp. 1875-1881 , November 2006

Keywords: Clustering, agglomeration, nearest neighbor, vector quantization, PNN.

距離計算の回数を削減するために近似的な最近傍グラフを用いた高速な凝集型クラスタリング法を提案する。このアルゴリズムの時間複雑性は、{¥rm O}(¥tau N^2) から{¥rm O}(¥tau N ¥log N)へと向上している。ここでτは各反復において必要とされる最近傍の更新数を示す。実験の結果によると、本方法により相対的小さい近傍サイズで充分フルサーチに迫る品質を確保することができる。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


“侵略者”アルゴリズム:加速相関のための値域変調
The "Invaders' Algorithm: Range of Values Modulation for Accelerated Correlation

Alexander Kadyrov, Maria Petrou, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 11, pp. 1882-1886 , November 2006

Keywords: Image correlation, image filtering, template matching, accelerated correlation.

本稿では幾つかの相互相関を同時に計算可能なアルゴリズムを示す。このアルゴリズムは様々な画像/信号の値域の桁をシフトし、これらを組み合わせることで単一の合成画像/信号を構成する。付加的信号が、通常の場合単一の信号で占有される空間に配置されるため、我々はこれを“侵略者アルゴリズム”と呼ぶ。これは特別な信号が、通常の場合単一の信号に帰属する空間を侵略することを暗に示している。相関計算後、逆演算を行うことでそれぞれの結果を復元する。計算に使用されるハードウェアの仮数部の有限長、相互相関を計算するアルゴリズムの精度(たとえば高速フーリエ変換(Fourier transform:FFT)の精度)、そして結合される画像/信号の実際の値が、本アルゴリズムの制約となる。本アルゴリズムは、特別なハードウェア、もしくは特別なFFTアルゴリズムを必要としない。典型的な256x256画素の画像に対しては、通常のPCやラップトップPCを用いた場合の相互相関の計算において最低2倍の速度が保障される。より小さいサイズのテンプレートに関しては10倍の速度も達成可能だろう。

TS

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.28, No.12


バイオメトリックおよび確率的同一性入力のバイオハッシングための解析メカニズムとしてのランダム多空間量子化法
Random Multispace Quantization as an Analytic Mechanism for BioHashing of Biometric and Random Identity Inputs

Andrew B.J. Teoh, IEEE, Alwyn Goh, David C.L. Ngo, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 12, pp. 1892-1901 , December 2006

Keywords: Cancellable biometrics, BioHashing, random multispace quantization, face recognition.

同一性を証明するためのバイオメトリックは広く受け入れられつつある。これを実現するには大規模なバイオメトリックデータを蓄積する必要があるが、そうなるとプライバシーとか不正使用されないための重要な問題が出てくる。これらの問題はバイオメトリックデータの基本的能力に起因し、秘密保持を前提とするパスワードや物理的トークンとは異なり、問題が生じても新規再発行が出来ない。我々が以前紹介したバイオメトリック-ハッシュの枠組みは、外部の(パスワードやトークンに由来する)ランダムさをユーザー独特のバイオメトリックスとともに統合したもので、これは従来の暗号化やハッシュに比べ、機密性特徴を有するビット列を出力する。得られたバイオハッシュ法は、システムの安全性が危うくなったときは無効化して再発行できる。バイオハッシュはさらに認識効率が良いが、これは、バイオメトリックと外部ランダム性入力によるランダム多空間量子化法によって説明されている。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


バイオメトリック法による認証システムの検証:標本数の要件
Validating a Biometric Authentication System: Sample Size Requirements

Sarat C. Dass, IEEE, Yongfang Zhu, Anil K. Jain, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 12, pp. 1902-1319 , December 2006

Keywords: Biometric authentication, error estimation, Gaussian copula models, bootstrap, ROC confidence bands.

バイオメトリック特徴量(例えば、指紋、瞳画像、顔画像、など)を利用した認証システムはますます広範囲に利用され、多くの支持を集めている。またこれら市販のバイオメトリックを使ったシステムの開発者や所有者は、しばしば自分たち固有のデータに基づいた高性能を謳っている。このような場合にはシステムが主張する性能レベルが達成されているか否か、それぞれ独立に評価できることが要求される。バイオメトリック性能評価はn個の異なる項目に関するテンプレートを集め、簡便のために、このn個の項目ごとに多数の用意する。これに必要な業務の中でも以下の事柄はほとんどなされてない;1)システムが主張する性能レベルを証明する確信領域をROC曲線に基づいて構築する。ここにROCは受容者が許容する曲線である(Receiver Operating Curve)。2)ROC曲線の予め決められた幅の確信度を確立するために必要なバイオメトリック試料のサンプル数を指定する。これら2つの問題点の解析を簡単化するためにいくつかの過去の研究においてはバイオメトリックデータ入力は統計的に独立であるとの仮定があった。この仮定は強すぎるだけでなく、一般的に成り立たないことが多い。相関のあるバイオメトリックデータ入手法のための多変数連結詞モデルに基づく評価法を開発した。同じモデルを利用して、望みの幅を有する確信帯域が得るための試料の数の最小数を決定した。我々は確信帯域の推測値とともに少数の人間を対象とした指紋マッチングシステムで利用するバイオメトリックスに必要なサンプル数の推定値を図示した。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


表面の法線方向の統計的モデルを利用した顔形状の復元
Recovering Facial Shape Using a Statistical Model of Surface Normal Direction

William A.P. Smith, IEEE, Edwin R. Hancock

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 12, pp. 1914-1930 , December 2006

Keywords: Shape-from-shading, albedo estimation, directional statistics, illumination, face modeling.

本論文では、陰影からの形状復元アルゴリズム中に統計的な顔形状モデルをどうやって埋め込むことができるかを示す。顔表面の法線統計的変動モデルを利用して顔の形状が捉えられる手法について述べる。このモデルを構築するために等距離方位角投影法を採用して、表面の法線分布を単位球面上の極座標表現から局所接平面上の直交座標の点表現を利用する。表面の法線方向分布は投影された点の座標値の共分散行列から得ることができる。この共分散行列式の固有ベクトルが変換された表面法線の形状変動量を定義する。このモデルの学習するために、距離データから得られた表面の法線方位データを使い、Lambert法則を制約条件として顔の画像データにフィットさせる方法を述べる。グローバルな統計的制約条件と、局所的な放射条件の両方の組合せによって効率的で正確な顔形状の詳細な復元が可能であることを実証する。この手法の精度は実測データや実画像データによって評価する。

Ej, NH

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


MILES:組み込まれたインスタンスの選択を利用した多インスタンス学習法
MILES: Multiple-Instance Learning via Embedded Instance Selection

Yixin Chen, IEEE, Jinbo Bi, IEEE, James Z. Wang, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 12, pp. 1931-1947 , December 2006

Keywords: Multiple-instance learning, feature subset selection, 1-norm support vector machine, image categorization, object recognition, drug activity prediction.

多インスタンス学習法においては、学習用クラスのサンプル集合(これをバッグと呼ぶ)にラベルが付けられており、バッグ内部の個々のサンプル(これをインスタンスと呼ぶ)にはラベルは付いてない。最初の多インスタンス学習法(MIL)は、バッグの中の少なくとも1つのインスタンスが正であればその場合に限ってそのバッグを正と定義すると仮定して開発された。この仮定は薬剤の活性問題に関してはうまく行くが、コンピュータビジョンのような他の用途には制限をつけたほうが良い。我々は (Multiple-Instance Learning via Embedded instance Selection)と呼ぶ、インスタンスのラベルをバッグのラベルに推定のもとに付ける事をしない、標準的な教師付き学習法を提案する。MILESは各バッグを、訓練バッグ中のインスタンスで定義される特徴量空間中に、インスタンスの類似度尺度によって射影する。この特徴量射影は多数の冗長性を有する不適切な特徴量を招くことがある。従って、1−ノルムSVM法が利用され、重要な特徴量が選択され、かつ、識別器も同時に構成する。このために徹底的な実験を行った。他の手法と比べ、MILESは高い識別能力を示し、計算能力も高く、ロバスト性も高く、不確実なラベリングにもロバスト性を持つ。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


EM-EPアルゴリズムによるベイズガウス過程識別
Bayesian Gaussian Process Classification with the EM-EP Algorithm

Hyun-Chul Kim, Zoubin Ghahramani, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 12, pp. 1948-1959 , December 2006

Keywords: Gaussian process classification, Bayesian methods, kernel methods, expectation propagation, EM-EP algorithm.

ガウス過程識別器 (GPCs) はベイズ確率核を有する識別器である。 GPCsにおいては、画像入力場所においてのある種のクラスへの帰属確率は、その場所における潜在関数値に単調に関連している。この潜在関数の上のガウス過程から始まり、データによって潜在関数上の事後確率、および、ハイパーパレメータの値を推定し、これによって多様な局面における関数を決定する。最近、潜在関数上の事後確率が推測できる期待値伝達(EP)手法が提案された。この研究から、我々は近似EM法を提案し(EM-EP algorithm)、これによって潜在関数とハイパーパラメータの両方を推測する。このアルゴリズムは実際上収束することが分かり、カーネルのハイパーパラメータを学習するのに効率的なベイズ法の枠組みが得られる。このEM-EPアルゴリズムのGPCsに対する多クラス拡張版も同時に導かれた。実験結果によると、EM-EPアルゴリズムはGPCsや、サポートベクターマシンと交差検証法と同等以上に優れていることが分かった。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


併合と多数計測を伴う実時間多標的追跡のためのMCMCデータ結合と疎な因子化の更新
MCMC Data Association and Sparse Factorization Updating for Real Time Multitarget Tracking with Merged and Multiple Measurements

Zia Khan, Tucker Balch, IEEE, Frank Dellaert, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 12, pp. 1960-1972 , December 2006

Keywords: Markov chain Monte Carlo, QR factorization, updating, downdating, Rao-Blackwellized, particle filter, multitarget tracking, merged measurements, linear least squares, laser range scanner.

いくつかの多数標的追跡の応用において、1つの標的当たり複数の測定結果を解答するか、あるいは、相互作用している標的間の多数の併合された結果を返すかもしれない。追跡とデータ結合の既存アルゴリズムは当初はレーダー追跡に利用されていたがこれらの測定に適切には対処されてない。ここで相互作用する標的に対して確率的モデルを導入し、両方の問題に対して同時に処理可能にしよう。このモデルを近似するインターフェースを有するアルゴリズムを提供するが、これにはマルコフ鎖モンテカルロに基づく補助変数のパーティクルフィルター(auxiliary variable particle filter)を利用することで事前予測によって計算コストを下げている。さらに、Markov 鎖をRao-Blackwell化することによって大きな連続空間でのサンプリングを減少させている。我々の主要な寄与は、疎な最小自乗による更新と復旧(downdate)法であり、これによってターゲットの1回のイテレーション(iteration)コストを大幅に減少できる。もし、簡単な発見的方法と組み合わせると、このアルゴリズムを相互作用のある対象物に対して適用することが可能となる。我々は実験結果と困難な一連のシミュレーションを示す。また、ビデオと距離データを利用した2つの様式の精度をテストした。通常のPCを使った実時間処理用アルゴリズムも示す。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顕著性の分布について
On the Distribution of Saliency

Alexander Berengolts, Michael Lindenbaum

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 12, pp. 1973-1990 , December 2006

Keywords: Saliency networks, grouping, perceptual organization, figure-from-ground.

顕著な構造を検出することは、知覚構造化における基本的課題である。顕著性の抽出アルゴリズムは、通常、ある目立つ特徴量尺度とともにエッジ点に注目するが、これらエッジ点の存在する上の曲線の長さや滑らかさと共に大きな値をとる。ここで確率的に特定されたグループ化の手がかりと、曲線長分布に基づいた変形された顕著性推定メカニズムを提案する。この枠組みではShashua と Ullman の顕著性メカニズムは、最大期待長を有する曲線を抽出するプロセスと解釈できるだろう。当然、一般化された顕著性も導くことができる。この一般化をいくつかの方法で試み(例えば、中間調に基づく顕著性)、一般化顕著性のタイプについて限界を厳密に導く。次に、期待長顕著性の確率論的解析を実行しよう。エルゴード性と漸近性を利用して、主曲線と、その他の画像に関連した顕著性分布を求める。次に、この解析を有限長曲線に拡張する。導かれた分布から、図形と背景を区別する顕著性に関する最適な閾値を導き、背景からの図形の識別の有効性を示す。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ポアソン方程式を用いた形状表現と識別
Shape Representation and Classification Using the Poisson Equation

Lena Gorelick, Meirav Galun, Eitan Sharon, IEEE Computer Society, Ronen Basri, IEEE Computer Society, Achi Brandt

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 12, pp. 1991-2005 , December 2006

Keywords: Computer vision, shape, Poisson equation, silhouette classification.

シルエットの多数の有用な性質を高い信頼性で計算できる新規な手法を紹介する。まず、シルエット内部に、境界に出会うごとにランダムウォークの平均時間を反映する数値を設定する。この関数はシルエットを境界条件とするポアソン方程式を解くことで求まる。この関数をどのように利用して、大まかなスケルトン、局所方位、異なる部品のアスペクト比、境界の凹凸などを含む多様な部分形状特徴量を確実に抽出できるかを示す。これに加えて、解の特徴を論じ、多グリッドアルゴリズムを利用して、いかに効率よく解を求めるかを示す。この抽出特徴量を利用して、形状の分類と検索への有用性を実証する。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動的な形状外観モデル
Dynamic Shape and Appearance Models

Gianfranco Doretto, IEEE, Stefano Soatto, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 12, pp. 2006-2019 , December 2006

Keywords: Active appearance models, linear dynamical systems, video analysis, image motion, dynamic textures.

画像系列の一部の形状と外観の結合変動のモデルを提案する。このモデルは隣接画像フレームの時間的相関を活用するための条件付線形で、動的外観モデルの拡張版の一つと考えられる。モデルパラメータの推測は、既に確立している有限要素法とシステム同定法から借用した数値最適化法によって、効率的に実行される

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カーネル密度マッチング法によるシンボル認識
Symbol Recognition with Kernel Density Matching

Wan Zhang, Liu Wenyin, IEEE, Kun Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 12, pp. 2020-2024 , December 2006

Keywords: Symbol recognition, graphics recognition, kernel density, independent component analysis.

グラフィック記号について、類似度が評価できる新規な方法を提案する。記号は2Dカーネル密度関数として表現され、これらの類似度はKullback-Leibler分散で測定される。記号の方位は勾配に基づく角度探索か、あるいは、独立成分分析で求められる。実験によれば、本手法は多様な用途に対して顕著な効果を示す。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


平面状の標的を利用したロバストな姿勢推定
Robust Pose Estimation from a Planar Target

Gerald Schweighofer, Axel Pinz, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 12, pp. 2024-2030 , December 2006

Keywords: Camera pose ambiguity, pose tracking.

理論的には、較正されたカメラの位置は、最低、4つの共平面点で、かつ非線形点である点によってユニークに定義ことができる。実際、平面状の標的を使ったカメラ姿勢の追跡は多くの用途があるし、最近の実時間処理での姿勢推定アルゴリズムが数多く提案されている。しかし、すべてのアルゴリズムにおいて姿勢の曖昧さが含まれている。本論文は遠近カメラにおいて撮影された平面状の標的には姿勢の曖昧さがあることを調べる。我々は姿勢の曖昧さ---誤差関数に伴う---2つの異なる局所最小値が、広角レンズや近距離標的に対しても存在することを示す。我々は2つの極小に対応する解釈を与え、2番目の最小値を与える場所を解析的に導く。この解に基づいて、平面状標的を使った、ユニークでロバストな姿勢推定アルゴリズムを開発する。実験による評価によれば、本アルゴリズムは最新の4つの姿勢推定アルゴリズムを、はるかに凌ぐ。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


絶対円錐曲線と球画像の間の関係と、その幾何学的解釈
Geometric Interpretations of the Relation between the Image of the Absolute Conic and Sphere Images

Xianghua Ying, Hongbin Zha

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 12, pp. 2031-2036 , December 2006

Keywords: Camera calibration, geometric interpretation, sphere image, image of the absolute conic, double-contact theorem.

球状被写体を透視したときの円錐曲線画像の性質を利用したカメラの較正方法はここ数年紹介されてきたが、これは隠蔽状態が含まれる球の輪郭の投影画像を利用するものである。しかし、論文では、円錐形の絶対形式と球画像の関係を代数的に記述したものであった。本論文では、球画像を利用した2通りの幾何学的関係として解釈し、2種類のカメラの較正法として提案する。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所2値パターンによる顔の記述:顔認識への応用
Face Description with Local Binary Patterns: Application to Face Recognition

Timo Ahonen, IEEE, Abdenour Hadid, Matti Pietikainen, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 12, pp. 2037-2041 , December 2006

Keywords: Facial image representation, local binary pattern, component-based face recognition, texture features, face misalignment.

本論文は、局所2値パターン(LBP)のテクスチャー特徴に基づく新規で効率的な顔画像の表現方法を紹介する。顔画像はいくつかの領域に分割され、これからLBP特徴量が抽出され、顔の記述子として利用される特徴ベクトルと関連付けされる。この提案手法は異なる課題での顔認識として評価される。他の応用といくつかの拡張案についても考察される。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


輝度不変とコントラスト不変なエッジ類似度尺度
A Luminance- and Contrast-Invariant Edge-Similarity Measure

Saravana Kumar, Sim Heng Ong, IEEE, Surendra Ranganath, Fook Tim Chew

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 12, pp. 2042-2048 , December 2006

Keywords: Edge detection, filtering, projection angles, similarity measure.

変動する輝度やコントラストに対してロバスト(頑健)なエッジ検出類似度尺度を提案する。これは、正規化の項と方位性FIRフィルターから成り、フィルターは従来法に比べてノイズやエッジの偏在に対する性能向上のために双曲正接(hyperbolic tangent)のプロファイルを持っている。

Ej

Copyright (c) 2006 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.

[インデックス] [前の年] [次の年]