AbstractClub - 英文技術専門誌の論文・記事の和文要約


[インデックス] [前の年] [次の年]


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.18, No.1


衛星画像での道路の追跡のための動的テスティングモデル
An Active Testing Model for Tracking Roads in Satellite Images

Donald Geman and Bruno Jedynak

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996

Keywords: Decision tree, model-based tracking, active testing, roads, SPOT images

衛星画像から道路を追跡する新しいアプローチを提案し、それによってコンピ ュータビジョンにおける1次元の構造物の追跡や他の認識の問題のための一般 的な考え方である"active testing"について説明する。このアプローチは「次 にどこを見るか」といったアクティブビジョンの最近の研究に関連し、 "Twenty Questions"のような娯楽ゲームの"divide-and-conquer"戦略によって 刺激される。

前のテスト(ここでは短い道路セグメントに対するマッチドフィルターを選択 すること)の結果から得られた正しい仮説(ここでは道路の位置)についてで きるだけ不確実さを取り除くようにその時点でのテスト内容を選択する。テ ストの内容はテストと仮説の結合分配のための統計的モデルに基づいてオンラ インで選択される。不確実さ(ここではエントロピーによって測定される)を 最小化する問題は簡潔で明示的な解析的項で定式化される。このエントロピー によるテスト規則を実行するために、データ収集と最適化を交互に行なう。こ れは、おのおのの繰り返しにおいて新しい画像データが試され、新しいエント ロピー最小化問題が解決される。これは検査するための新しい場所の画像に対 して行なう結果として可能になる。

地上で10mの解像度を持つ SPOT 衛星画像を使用した実験結果を示す。これ は、開始位置と方向を与えられ人の介在なしに100kmのオーダーの距離 で南フランスの高速道路の追跡を瞬時に行なうことができた。


可変状態次元フィルタ(State-Dimension Filter)を使用した 頭部据えつけカメラによる動的な測定(Active Camera Calibration)
Active Camera Calibration for a Head-Eye Platform Using the Variable State-Dimension Filter

Philip F. McLauchlan and David W. Murray

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996

本論文では、制御可能な頭部の台に据え付けられたカメラによる計測 の新しい方法を示す。 計測パラメーターの推定のオーバータイムを改善するために、 新しい可変状態次元の再帰フィルタを利用して、 任意の数の追跡されたコーナー特徴の軌道を使用する。 本方法は特別な視覚の刺激は必要としない。 また、頭部に対して相対的に固定であるという以外、情景の構造に関する いかなる仮定も必要としない。 本アルゴリズムは一つのインモスT805トランスピュータにおいて1秒あたり 4フレーム処理される。したがってリアルタイムのアクティブビジョンシステ ムとして構築されている。 更新された計測パラメータは必要とするビジョンモジュールに 渡される。 本アルゴリズムはカメラの焦点距離の初期推定を必要とするが、 実際の実験では初期誤りが50%までは収束が得られることが 示されている。


強健で能率的な凸面群の検出
Robust and Efficient Detection of Salient Convex Groups

David W. Jacobs

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996

Keywords: Grouping, perceptual organization, convexity, proximity, nonaccidental properties, robust, efficiency, recognition

本論文は,画像中の線セグメントの凸面群の位置を強健に突き止めることの できるアルゴリズムについて述べる.このアルゴリズムでは,セグメント間の 隙間の長さが線のトータルの長さのある一定の割合より小さい線セグメント の凸面集合を全て検出できることが保証されている.これにより,輪郭がノイ ズによって部分的に欠落した凸面群をも検出することができる.そして予想さ れるケースに関する分析によってアルゴリズムの性能を示す.これによって凸 面はランダムに発生しないようであろうことが分り,線セグメントがシーンの 基礎構造を反映するという,強力な手掛かりとなる.線セグメント数 n の画 像中の 上位 m 個の凸面群に対し,提案アルゴリズムの実行時間は O(n2 log(n) + nm) となることを示す.この分析はリアルデータに対する実験 で実証され,このグルーピングシステムを完成された認識システムの一部とし て示す.


多重尺度モーフォロジーにおける膨張,浸蝕演算の尺度空間的性質
Scale-Space Properties of the Multiscale Morphological Dilation-Erosion

Paul T. Jackway and Mohamed Deriche

IEEE Trans. Pattern Anal. Machine Intell., Vol. 18, No. 1, January 1996.

多重尺度モーフォロジーにおける膨張,浸蝕演算による平滑化操作と,多次元 信号に対して,その操作により想起される尺度空間への展開についての研究が なされている.平滑化操作の性質が述べられ,特に信号の極値に対する尺度空 間での単調な性質について説明されている.この手法による尺度空間の特徴軌 跡画像のほうがガウシアンに基く尺度空間の特徴軌跡画像よりも,尺度のパラ メーターに負値が定義されていること,二次元やそれ以上の次元においても単 調な性質を有すること,平滑化による位置のずれを生じないこと,効率的な計 算が可能であることなどの点で優れている.また,簡約された多重尺度の膨張, 浸蝕演算の,地形表面のマッチングへの応用が示されている.


曲面を持つ3次元物体の姿勢の同定
Determining Pose of 3D Objects with Curved Surfaces

Jin-Long Chen and George C. Stockman

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996

Keywords: Pose determination, 3D objects, object tracking, object modeling, image matching, recognition by alignment

任意の曲面を持つ3次元の硬い物体の姿勢を計算する方法を提案する。入力画 像と物体モデルおよびその形状の候補が与えられると、この方法は物体がある かどうかなどを確認し姿勢に関するパラメータを計算する。

BasriとUllmanの曲率を利用した方法は物体の縁のモデル点に適応されるが、 ステレオマッチングでは物体内部のエッジ点に適応される。そのモデルは物体 のエッジ画像が姿勢のパラメータにより予想されることを可能とする。姿勢は 最も良いパラメータになるように繰り返し探索される。ヒューリスティックス はマッチングがオクルージョンや人工物が存在する場合や特徴点の対応づけを 行なわない場合でも成功するように使われる。

ベンチテストとシミュレーションはこの方法が様々な物体に対しても同じ形状 の物体で多くの開始パラメータを用いても正しいパラメータにいつも収束する ことを示す。


論文 「Efficiently Computing and Representing Aspect Graphs of Polyhedral Objects」 に対するコメント 独立に運動する複数の物体を含むシーンの長い画像系列における MDL原理にもとづくセグメンテーションと運動のモデリング
Comments on "Efficiently Computing and Representing Aspect Graphs of Polyhedral Objects" MDL-Based Segmentation and Motion Modeling in a Long Image Sequence of Scene with Multiple Independently Moving Objects

Aldo Laurentini Haisong Gu, Yoshiaki Shirai, and Minoru Asada

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996 IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996

Keywords: Aspect graphs, polyhedra, topological definition of aspect

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 13, No. 6, June 1991 において発表された論文 「Efficiently Computing and Representing Aspect Graphs of Polyhedral Objects」 に対するコメントである。

本書簡は多面体の aspect graphs の算出に関する上記論文で与えられた aspect の定義を出発点にしている。

この定義に則って保持されたデータは 物体の識別もしくは 位相的マッチングを用いた姿勢の識別 に不適当な場合があること を示す簡単な例が示されている。

また、指摘した問題の発生しない他の定義も提案されている。

本論文では最小記述長(MDL)原理をもとに、 複数の独立に運動する物体を含むシーンの長い画像系列を、時間的空間的に セグメンテーションする手法を与える。 まず最初に、一連の運動モデルが構成される。その各々は、一定速度の並進や 並進と回転の組合せのような、物理的に重要な運動に相当する。 それから、運動記述長が定式化される。 ある物体が運動のタイプを変えるか、もしくは物体の新たな部分が現れると、 それに相当する時間的・空間的セグメンテーションが実行される。 長い画像系列において運動記述長を最小にすることによって、2つの連続した 画像に対して明確なセグメンテーションを行なうことができる。 いくつかの実画像の系列について実験を行ない、本手法の妥当性を示す。

mNt ---


画像の回転を用いた,三つの質の低い透視画像からの動きの検出
Motion from Three Weak Perspective Images Using Image Rotation

John Ostuni and Stanley Dunn

IEEE Trans. Pattern Anal. Machine Intell., Vol. 18, No. 1, January 1996.

本論文では,画像の回転を用いることによって,三つの質の低い透視画像から 動きを検出する線形アルゴリズムを開発することができることを示す.ある二 組の画像間で四つの対応点を用いることで,必要な回転を実行できるような関 数を作成できる.正確な画像の回転ができれば,三つの画像に関する回転行列 の未知要素の解を重複決定するような線形システムを得るには,第三の画像を 付加するだけでよいこととなる.


画像分割とラベリングのためのマルコフランダム場モデルに基づいた統合法
An Integration Scheme for Image Segmentation and Labeling Based on Markov Random Field Model

Il Y. Kim and Hyun S. Yang

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996

本論文ではマルコフランダム場モデルにおける画像理解問題のための 統一的な手法を述べる。 提案した手法において、画像分割と解釈の処理は同時に協同して進むので、 誤った分割と誤った解釈は統合されたエネルギー関数の連続的な評価によって 回復が可能である。


ベイジアン・ネットワークを用いる画像解釈
Image Interpretation Using Bayesian Networks

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996

画像解釈はドメイン知識を借用した推論問題の一つである。本小論では、この 問題を正確に定義した確率分布関数の事後推定値の最大化として定式化する。

Bayesian ネットワークはこの確率分布関数および画像解釈に必要なドメイン 知識を表現できることが我々によって示された。Bayesian ネットワーク(の 条件)を緩和すれば、最適解釈の集合を得ることもできる。


両者間の相対物体カメラ推進を用いた透視画像ペアからのアフィン再構築
Affine Reconstruction from Perspective Image Pairs with a Relative Object-Camera Translation in Between AHTHOR: T. Moons, L. Van Gool, M. Proesmans, and E. Pauwels

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996

二つの透視画像にで同定された最少五つの点によって構成されている場面の3 次元アフィン構造を、両者間の相対物体カメラ推進を用いて復元する方法につ いて述べる。任意の立体景色を持って比較した結果、より少ない情報でより詳 しい再構成をできることが分かった。

この方法の唯一の仮定は二つの画像が同一のカメラで取られたことであったが、 カメラの固有のパラメータについては、何の知識をも持たない。

同じこの方法で、単一画像から平行構造のアフィン3次元再構築ができる。こ の場合、アフィン再構築には四つの点があれば充分である。


2値画像の解析と処理のためのランレングスに基づいたアルゴリズム
Run-Based Algorithms for Binary Image Analysis and Processing

S. Di Zenzo, L. Cinque, and S. Levialdi

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996

本論文では、ランレングス符合化に基づいた2値画像の表現の 変形を提案する。 この変形によって「グラフ表現」の構築が可能になる。 この「グラフ表現」は連結成分のラベリング、オイラー数、直径、凸面、 局所的な極点と重複点の計算などのたくさんの計算機処理に便利である。 最後にデジタル地図のラスター−ベクトル変換への応用を示す。


誤差確率における任意にタイトな上限と下限
Arbitrarily Tight Upper and Lower Bounds on the Bayesian Probability of Error

Hadar Avi-Itzhak and Thanh Diep

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 1, January 1996

この論文では、二クラス問題のためのベイジアン決定系について、その最小 誤差確率の新しい上限と下限とを提案する。 これらの上限と下限は、正確な最小誤差確率へと任意に近づけることができる ものであり、これまでに知られているいかなるものよりもタイトなものである。


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.18, No.2


画像劣化モデルのOCRにおける有効性
Validation of Image Defect Models for Optical Character Recognition

Yanhong Li, Daniel Lopresti, George Nagy, and Andrew Tomkins

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996

本論文ではOCRにおいて出現するモデルの変形を生成する 文字画像生成器を評価する問題について論じる。 たくさんのモデルが提案されてはいるが、彼らの欲する結果を提示して、 概してアドホックで略式な方法で主張が示されている。 我々はモデルが正確な場合の厳密でより実用的な定義を導入する。 すなわち、もしそのようなモデルによって引き起こされるOCRのエラーと 実際にスキャンされた文書を使う場合に起こるエラーとが区別できない場合に 画像劣化モデルが有効であることを示す。 我々はこの類似性を定量化するために4つの尺度について述べ、それらを 3フォントの1000万個以上のスキャンされた文字画像を使って比較対照する。 それらの尺度はテキストに関わらず、異なったフォントと 同じフォントの異なったスキャンを効果的に区別する。


テクスチャ識別マスクの学習 Learning Texture Discrimination Masks

Anil K. Jain and Kalle Karu

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996

本論文では神経回路網によるテクスチャの分類方法を提案する。 本方法は複数チャネルフィルタリング法の一般化として導入される。 一般的なフィルタの集合を使用するかわりに、 神経回路網をトレーニングして特化フィルタの最小集合を見つける。 したがって、特徴抽出と分類は同一の統一された網で行なわれる。 異なる網のパラメータにおける誤りレートを計算し、トレーニングと ノード切りとりアルゴリズムの速度の収束を示す。 本方法をいくつかのテクスチャ分類実験に適用した結果を示す。 画像中のバーコードの位置特定実験と、 文書画像を文字領域と図・写真と背景に分離する実験で成功した。 既存の複数チャネルフィルタリング法と比べて、神経回路網を使用した 本アプローチは、同じテクスチャ分類と分割問題においてより有効である。 本方法の拡張、それは限界でもあるが、それも本論文において述べる。


医療モニタリングに対する Longitudinal and Failure Time データ の総合モニタリング法
A Unified Approach for Modeling Longitudinal and Failure Time Data, With Application in Medical Monitoring

Carlo Berzuini and Cristiana Larizza

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996

Keywords: Bayesian inference, statistical forecasting, analysis of time series data, analysis of failure data, Markov chain Monte Carlo methods, conditional independence graphs, model determination, medical monitoring.

本論文は,例えば病状の予見のための患者のモニタリングのような生物医学的な 問題について考慮する.モニタリングデータは指定された一定時間ごとに,時間 的に連続なものと患者の異変(病状の進行,死)に関するものが発生するという ことは重要である.本論文ではこれら両方のタイプの病状予見のためのデータの 組み合わされたモニタリングに対するBayesian 手法が提案されている.この手 法は Bayesian 階級的モデリング,連続時間データのパラメータを用いないス ムーシング,生存分析,統合された骨組みでの予見などのアイデアを併せ持って いる.連続時間データの柔軟なモデリングは確率的過程論に基づいている点が重 要である.また,病状予見のための Markov Chain Monte Carlo シミュレーショ ンの利用が議論されており,モデルのはっきりとした記述のために,条件付独立 グラフが全体にわたって用いられている.最後に移植患者のモデリングに対する 適用が示されている.


マルチスケールな識別器
The Multiscale Classifier

Brian C. Lovell and Andrew P. Bradley

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996

この論文では、ルールベースの推論学習アルゴリズムを提案する。それは、 それは、特徴空間を次々と半分に分割することによって学習データを分類 するための、あらゆるN次元の実(または二値)識別器に適用されうるも のである。 このアルゴリズムは、既存のルールベースのアプローチと比べた場合に、 重要な違いがいくつかある。それは、学習がインクリメンタルであること、 ツリーが二分木ではないこと、決定におけるバックトラックがある程度 可能であることである。 この論文は、まず現在の機械学習技術の背景について述べ、その強みと弱み となるいくつかの点について概説する。 次にMSCアルゴリズムについて述べ、特定のリファレンス(ID3, C4.5, バック プロパゲーションNN)について他の推論学習アルゴリズムとの比較をする。 さらに標準ベンチマーク問題のいくつかについての性能について議論をし、 一般化や表現力、それに過適応といった学習における標準的問題について 述べる。


局所的色不変特徴を用いた3次元物体の光源の影響を受けない認識
The Illumination-Invariant Recognition of 3D Objects Using Local Color Invariants

David Slater and Glenn Healey

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996

Keywords: Object recognition, color distribution invariants, illumination invariant, viewpoint invariant, illumination correction, pose estimation.

3次元物体の認識に関する従来の研究は 3次元物体の幾何と2次元画像の幾何の間の関係を明らかにした。 次は物体表面の色に関する情報を組合せて用いることで、 物体認識システムの可能性を向上させることが出来る。

画像の構成に関する物理的モデルを用いて、 視点、形状、シーンの光源の強度およびスペクトルに依存しない 局所的な色画素の分布の不変特徴を導いた。 これらの不変特徴は 物体表面に固有のスペクトル反射の分布に関する情報をとらえ、 それによって 多くのテクスチャ表面を含む広い範囲に渡る表面を識別するのに 非常に強い識別性能を供給出来る。

これらの不変特徴は いかなる形態の分割処理も用いることなく、 カラー画像の一部分から効率的に算出出来る。 この不変特徴を用いてモデルのデータベースへ 索引付けを行なう物体認識システムを実装した。 このシステムは仮定の検証と姿勢の評価の為に 同伴幾何情報を用いている。

認識へのアプローチは 局所的不変特徴の算出に基づいており、 そのために隠蔽の影響を受けない。

このシステムが物体の形状やシーンの光源に依存しないで 乱雑なシーン中の物体を認識する性能を証明するいくつかの例をしめす。 不変特徴の識別性能は誤った仮定を生成することなしで 複雑なシーン中の多くのセットを処理できるシステムの能力によって証明される。

mNt


消失点の情報を用いた三次元形状の再構成
3D Shape Reconstruction by Using Vanishing Points

Pietro Parodi and Giulia Piccioli

IEEE Trans. Pattern Anal. Machine Intell., Vol. 18, No. 2, February 1996.

本論文では,消失点の位置により得られる幾何学的な制限を利用してシーンの 線画から三次元構造を定量的に再構成するという研究について述べる.消失点 に付随する情報は,線形プログラミングへの自由度の減少 ( a reduction to Linear Programing : 杉原,1982 ) に基く従来の方法に対していくつか優れた特徴をもつアルゴリズムの設計を可 能にした.それらは,計算の複雑度の低さから,誤差に対する耐性や,物体の 三次元的な幾何学的特徴の再構成の正確さにまで及んでいる.これらの特徴に より,このアルゴリズムは,例えばシーン理解から自動車の案内までのいくつ かの課題に有効であるような,実写画像の定量的な解析に対して有用なツール となるのである.


ダイバージェンスに基づくマルチモーダルクラス密度の特徴選択
Divergence Based Feature Selection for Multimodal Class Densities

Jana Novovicov- Pavel Pudil, and Josef Kittler

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996

ここでは、二クラスの条件付き密度関数間のカルバックJダイバージェンス に基づく特徴選択手続きを提案する。条件付き密度関数はパラメータ化され た特殊なタイプの密度の有限混合によって近似されたものである。 この手続きは、特にマルチモーダルなデータに適したものである。 いかなる探索手続きをも含むことなく基本的な特徴サブセットを見つける ことの他に、疑似ベイズ決定規則をも生み出すことができる。 その性能については、実データについてテストがなされる。


Reid の複数仮説追跡アルゴリズムの効率的実現と 視覚追跡の目的におけるその評価
An Efficient Implementation of Reid's Multiple Hypothesis Tracking Algorithm and Its Evaluation for the Purpose of Visual Tracking

Ingemar J. Cox and Sunita L. Hingorani

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996

Reid の複数仮説追跡(MHT)アルゴリズムの効率的実現について述べられて いるが、そこでは、Murty のアルゴリズムを用いて上位k個の仮説が 多項式時間で決定される。 MHTアルゴリズムはそれからいくつかの運動系列に適用されている。 追跡の開始、終了、継続でのMHTの能力が、追跡の一時的オクルージョンを 低レベルでサポートする能力とともに示されている。 50〜150のコーナー特徴が51フレーム以上の画像平面の中で 同時に追跡される。 それぞれのコーナーは単純線形カルマンフィルターを用いて追跡され、 データの関連づけの不確かさはMHTによって解決される。 カルマンフィルターのパラメーター推定を論じ、実験結果で このアルゴリズムが運動モデル中のエラーに頑強であることを示す。 前方調査(look-ahead)機能としてのアルゴリズム性能テストでは 三段程度の浅いツリーではかなりの高精度が得られることが分かった。 実験結果はある種のシーンに対して動作一致問題のための実時間MHT解法が 可能であることを示す。


2つの視野からの円錐の再構築と対応付け
Conic Reconstruction and Correspondence From Two Views

Long Quan

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996

Keywords: Conic, stereo correspondence, reconstruction.

円錐は点や線と共に画像の最も基本的な特徴の一つとして広く受け入れられている。 空間の再構築と2つの視界における2つの円錐の対応付けの問題がこの論文の主題であ る。

2つの視界に跨る1組みの円錐の対応については、 2つの独立な多項式が存在することが示されており、 2つの視界での方向の関係を与えている。

これらの2つの対応は代数学的に導かれ、 その1つは円錐の対応付けを求める際の基本として示される。

一様閉形式( A unified closed-form )の解法も 2つの補正されていないカメラの視界から円錐を射影的に再構築するためと 2つの補正されたカメラの視界から計量的に再構築するための 両方の為に開発された。

実験はシミュレーションと実画像の両方に対して 対応関係の識別性能と再構築の精度と安定性 を証明する為に行なわれた。

mNt


単独輝度視界(Single Intensity View)からのSHGCsの復元
Recovery of SHGCs From a Single Intensity View

Ari D. Gross and Terrance E. Boult

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996

一般化円筒は柔軟であり、パラメーター形状のゆるく定義されたクラスで 多くの実世界対象物をモデル化することができる。 まっすぐで均質の一般化円筒(SHGCs)は、一般化円筒の重要なサブクラスであり、 その断面で参照曲線のスケールの違うものが得られる。 従来は輪郭からのSHGCの形状の復元としてかなり研究されてきたが、今回は 輪郭とヒューリスティックな拘束条件を組み合わせた方法をほとんど使っていない。 単独輝度視界(single intensity view)からの固体パラメーター形状の復元問題の 正確なアプローチは少なくとも2つのステージを含む: 1)輪郭の拘束条件を得る 2)三次元対象物形状を一意に決定するのに用いることができる付加的画像拘束条件 例えば輝度を決定する。 この論文では、著者は今述べたアプローチに従う。 この方式は管のように輪郭やヒューリスティックな拘束条件が形状復元に不適当な 対象物クラスの復元にも重要である。 最初に正射影(orthography)で生成されるSHGC輪郭がちょうど二つの自由度を もつことを証明する。 次に残った自由なパラメーターが表面反射能(surface albedo)での光源の数、 位置、輝度、周囲の光量の知識なしに反射率に基づいた(reflectance-based) 拘束条件を用いて求めることができることを示す。 最後に、反射率に基づいたな復元アルゴリズムを人工的また実在する SHGC画像の両方で証明する。


不連続なオプティカルフローを評価するための高速で スケーラブルなアルゴリズム
A Fast Scalable Algorithm for Discontinuous Optical Flow Estimation

Sugata Ghosal and Petr Vanek

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, February 1996

複数の運動する物体や部分的に重なりをもついくつかの物体や、あるいは 単一の物体でさえも背景に対して運動するときには、相当する画像系列 のオプティカルフロー場において不連続を生ずる。 一様で大局的な正則化をほどこす手法はそこそこ速いけれども、不連続な フロー場を精度良く評価することができないし、統計的な最適化を行なう 手法は精度は良いけれども、解が求まるまでに相当な時間を覚悟しなければ ならない。 ここで提案する、数値的にロバストなアルゴリズムにもとづく 「重みつき非等方的」平滑度は、不連続なオプティカルフロー場を高速に、 線形の計算量で生成することができる。 正則化のためには、フロー場の一次の空間微分の重みつき和が用いられる。 強い勾配を示す箇所では正則化はあまりはたらかない。 任意の点におけるフロー場は、勾配のゆるやかな方向に沿った近傍点の フロー場から内挿される。 そのような勾配によって重みづけされた正則化から、係数に非連続を含んで 連立された、強い非等方性を持つEuler-Lagrange方程式が導かれる。 非連続なオプティカルフロー場を評価するために、ロバストな多レベルの 反復手法をとりいれた。これは、勾配で重みづけされた平滑係数にもとづき、 粗レベル問題を再帰的に生成するものである。 実験結果から提案手法の効果を示す。


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.18, No.3


モデル登録のためのグラフテンプレート
Graphical Templates for Model Registration AUTOHR: Yali Amit and Augustine Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996

グラフテンプレートを用いてモデルを登録する新しい方法を提案する。 目印となるグラフがテンプレート画像の中から選ばれる。 これらの目印に対するすべての可能な候補が、局所オペレータを用いて データ画像中で探索される。 テンプレートグラフの分割可能なサブグラフについて動的計画法を適用し、 候補点の最適な組を多項式時間で見つける。 重要な点/目印を記述するための局所オペレータと、それらの幾何学的な方向を 記述するためのグラフとをこうして結び付けることにより、 データへのモデルのマッチングを、初期化が一切不要で 速く正確に行なえるようになる。


曲線軸に沿った一般化円筒の不変的および準不変的特性の解析に基づく三次元記述
Three-Dimensional Descriptions Based on the Analysis of the Invariant and Quasi-Invariant Properties of Some Curved-Axis Generalized Cylinders

Mourad Zerroug and Ramakant Nevatia

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996

曲線を軸とする一般化円筒クラスの三次元記述での物体レベルでの復元に ついて論ずる。本論文は、まず、2種類の一般形状(平面直一般化円筒 (planar right constant generalized cylinders (PRCGCs))、曲面直一般化円 筒(circular planar right generalized cylinders (circular PRGCs)))の投 影の性質を解析する。これら分析された性質に、上記形状の直交投影の新しい 幾何学不変性と準不変性が含まれており、構造的性質はこれらの形状の姿勢の 関数として分類されている。 本論文の後半は、ノイズ、表面マーキング、影、および部分閉塞のある画像 からPRCGCsと曲面PRGCsを探知し、復元できるシステムの実施について述べる。 ここでの方法は、上記の投影的性質を利用して、関連の曲線軸の物体の仮説を 立て、実証する。つまり、物体の三次元性質とその記述が使用されている。 本論文で述べられた研究は過去に行なわれていた研究の拡張である。これら 過去の研究では、新プリミティブを提唱し、新性質を引きだし、そして、ある システムを構築して、上述のような画像から体積測定の形状を復元した。 上述の方法は複数の実の画像での応用を示す。


モーメントによる画像解析
On Image Analysis by Moments

Simon X. Liao and Miroslaw Pawlak

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996

近年パターン認識にモーメントを利用する研究がされている。 対象の記述子としてのモーメントの正確さに関わる離散化とノイズの影響 といった、基本的な問題はほとんど研究されていない。 本論文では、詳細なエラー解析を含むモーメント法について議論する。 モーメント記述子の正確さと能力を向上させるいくつかの方法を提案する。 それから我々はこれらの結果を、離散的でノイズを含むデータから計算した 直交ルジャンドルモーメントからの画像再構成の問題に利用した。 モーメントの最適な数を自動的に選ぶ方法についても議論する。

Y.A.


変形テンプレートを用いた物体のマッチング
Object Matching Using Deformable Templates

Anil K. Jain, Yu Zhong, and Sridhar Lakshmanan

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996

Keywords: Object matching, deformable templates, image database, image segmentation, Bayesian optimization, multi-resolution algorithm.

変形可能なテンプレートを用いた、一般的な物体の位置決めと検索の方法を提案する。 物体形状の先験知識は、 代表的な輪郭/エッジと、テンプレートの確率的な変形変換の集合から成る、 プロトタイプによって記述される。 変形テンプレートと画像中の物体の間のマッチングを見つけるために、 この先験知識と入力画像のエッジ情報をもとにしたベイズ的な方法を用いる。 マッチングのアルゴリズムを粗い解像度から細かい解像度へ実行することによ り、計算の効率化をはかる。 我々の方法を複雑な背景を持った画像から様々な形状の物体を検索することに 応用した。 提案する方法は、テンプレートの位置、回転、適度な大きさの変化に不変であ る。


隠蔽のない視点の算出
Computing Occlusion-Free Viewpoints

Konstantinos Tarabanis, Roger Y. Tsai, and Anil Kaul

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996

Keywords: Visibility occlusion, viewpoint planning, sensor planning, CAD-based vision.

本稿では、既知の多面体に対する視点のうち、そこから見られる特徴がその環境 でいかなるものにも隠蔽されることなく、そっくりそのまま見られるような視点 について、そのすべての位置を算出する方法について述べる。 この研究では、多面体(凹凸あり/なし、孔あり/なし)と透視投影のビューモ デルとを用いる。 まず始めに、隠蔽のない視点と隠蔽のある視点の位置の特性が決定される。これ らの特性に基づいて、その複雑さの解析とともに位置を求めるための二つの方法 について述べる。第一の方法では、隠蔽のない位置の境界表現が得られる。第二 の方法では、隠蔽された視点の位置が、CSG(constructive solid geometry)表現 によって表される。ここでCSG表現というのは、立体要素の結合から成るものであ る。この二つの方法について、インプリメントした結果と比較を述べる。

Sz


変形可能なテンプレートを使用したシーンからの自動車抽出および分類
Vehicle Segmentation and Classification Using Deformable Templates

Marie-Pierre Dubuisson Jolly, Sridhar Lakshmanan, and Anil K. Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996

Keywords: Object shape models, contour extraction, deformable templates, Bayesian inference, simulated annealing, motion detection, travel time estimation.

本論文では、変形可能なテンプレートを用いて、注目している一台の自動車を 切り出すアルゴリズムを提案する。対象とするのは、背景は複雑で静止してお り、他に動いている自動車があるような連続画像である。 我々は、自動車の一般的なモデルを特徴づける多角形のテンプレートを定義し、 テンプレートが、許される形状の範囲内で変形するように制限するための事前 確率密度関数を導出する。変形可能なテンプレートが画像の動いた範囲内に含 まれ、その境界が画像中で同じ方向を持つ強いエッジに一致することを保証す るため、動きの情報とエッジの方向性の組合せである可能性の確率密度関数を 提案する。このことで自動車を抽出する問題はエネルギー最小化問題に帰着し、 Metropolisアルゴリズムによって解決できる。

本システムはハイウェーを走行する複数の自動車を含むような405個の連続 画像でテストし抽出に成功した。


帯域制限された信号の零交差に対するスケーリング定理
Scaling Theorems for Zero Crossings of Bandlimited Signals

Vo Anh, Ji Yu Shi, and Hung Tat Tsui

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996

Keywords: Scaling theorems, zero crossings, Gaussian kernels, scale space, multiscale analysis, signal descriptions, bandlimited signals, Whittaker-Shannon sampling theorem, quadratic forms.

スケールスペースフィルタは、 スケールを横断して特徴を抽出することにより、 階層的な信号記述の方法を供給する方法として、唯一の知られたものである。 その記述の重要な特徴の一つとして、スケールが増加するときに、 フィルタリングによって特徴が生成されないことが要求されている。 すでに、ガウシアン・フィルタだけがこの特筆すべき性質を持っていることが 示されている。 これが、いわゆる「スケーリング定理」である。 本論文では、帯域制限された信号に対する二つのスケーリング定理を提案する。 これらは、より広いクラスの信号とより大きい族のフィルタ核へ適用できる。 また、我々の定理と以前に発表されているものに関して、 突っ込んだ議論をする。


適応的な曲線再構成のための陰的簡易モデル
Implicit Simplicial Models for Adaptive Curve Reconstruction

Gabriel Taubin and Remi Ronfard

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996

パラメトリックで変形可能な様々なモデルは、例えば自由な形状の曲線と曲面の 再構成や、あるいは堅くない(nonrigid)変形の追跡などに広く使われ、とてもよ い結果をおさめてきた。しかしながら、そうしたモデルは、あらかじめ幾つかの 知識を必要とするものであった。ここで知識というのは、データの位相的な型や 初期的なよい曲線(または曲面)推定についての知識である。 変形可能モデルを用いると、変形追跡中にそれが自己自身に交わるかどうかをチ ェックし避けるための計算量が膨大となる。本論文で導入されるISM(Implicit Simplicial Models)は、区分的線形関数によって定義される、陰的な曲線・曲面 である。ISM表現を用いると、局所的な変形を許容し、位相のタイプを制御し、 変形の過程で自己自身に交わることを避けることができる。 本論文ではまた、まず最初の応用として、組織化されていないデータ点の集合か ら2次元曲線を再構成するアルゴリズムについても述べる。位相や連結成分数、 およびデータの幾何的な情報は、すべて適応型空間再分割アプローチを用いて推 定される。このアルゴリズムの四つの主要な構成要素は、位相の推定、曲線当て はめ、適応型空間再分割、およびメッシュ弛緩法である。

Sz


対象物の幾何学的モデルを使用したマルコフ・ランダム・フィールドでのコン テクストモデルのパラメータ推定
Parameter Estimation in Markov Random Field Contextual Models Using Geometric Models of Objects

Sateesha G. Nadabar and Anil K. Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996

Keywords: Markov random fields; line process, clique potentials, parameter estimation, edge detection, CAD models, range image.

シーンにおける対象物の幾何学的CADモデルを使用したマルコフ・ランダム・ フィールド(MRF)におけるラインプロセスのパラメータ推定の新しい枠組を 示す。モデルはランダムな視点から得られる対象物の合成画像を生成するため に使用される。合成された画像から計算されるエッジ画像は、最小自乗法を使 用したラインプロセスのパラメータ推定を行なうため、トレーニングサンプル として使われる。

このパラメータ推定方法が濃淡画像のエッジと同じように距離画像のエッジ検 出にも有効であることを示す。この論文の結果に主に貢献したものは、1) 他のラベルが有効ではない真のエッジのラベルを得るためにCADモデルを使用 したこと、2)パラメータの数を削減するために一般的なMRF表現を使用した ことがあげられる。


透視投影での指標付けに対する空間的要求
The Space Requirements of Indexing Under Perspective Projections

David W. Jacobs

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 18, No. 3, March 1996.

物体認識システムを、特徴をマッチングするルックアップテーブルを用いる ことでより効率化することができる。 この指標付けのプロセスのコストは、そのようなルックアップテーブルの中 のモデル特徴のグループを表すのに要する空間に依存する。 我々は、透視投影による一つの二次元画像から、ルックアップのための任意 の組の三次元モデルの点を指標付けするのに必要となる空間を決定する。 この場合にはモデルのグループを表す三次元表面を使用しなければならない ことを示し、そのような表面の解析的な記述を与える。 これは、拡大縮小された正射影、いいかえればアフィン投影の場合と対照的 に、二次元表面のみがモデル特徴のグループを表すのに必要とされる。 このことは、透視投影での物体認識の基本的な方法が、他の投影モデル での認識よりも複雑になるということを示している。


繰り返し平滑化された残差:コントロールされた縮退を伴ったスムージン グの為のローパスフィルター
Iterative Smoothed Residuals: A Low-Pass Filter for Smoothing With Controlled Shrinkage

Mark D. Wheeler and Katsushi Ikeuchi

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996

Keywords: Smoothing, filtering, curve, shrinkage, Gaussian, computer vision.

本論文ではバターワースフィルター(Butterworth filter)のように ローパスの特性を持つとともに、 ガウシアンフィルターのような空間領域での広がりを持つ リニアな平滑化(smoothing)オペレータを提案する。 この平滑化オペレータは空間/周波数領域において 閉形式(closed forms)を持つため、 解析とインプリメントが容易である。 フィルターの方程式は明白に縮退をコントロール出来るように導かれる。

mNt


テクスチャーを持つシーンのための改良パワーケプストラムに基づくステレオ対応法
An Improved Power Cepstrum Based Stereo Correspondence Method for Textured Scenes

Philip W. Smith and N. Nandhakumar

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996

Keywords: Cepstrum, image correspondence, stereopsis, depth estimation, foreshortening correction.

本論文はステレオ対応問題を解くためのケプストラム的手法のパフォーマンス分析 を行なう。ノイズの影響、差異の縮小および既成のケプストラム的対応法における 測光法変量の定量分析が示される。これらのノイズの影響に強い改良手法を提案し、 その強健さに対して分析的議論を行なう。新しいケプストラム的手法の比較研究に よる結果、オリジナルなケプストラム的アルゴリズム、相互相関法を示し議論する。 テクスチャーを持つ外観に対する、新手法のパフォーマンスが実験により確かめら れた。


EM法に基づく画像中の動き推定の新しいアルゴリズム
A New Image Motion Estimation Algorithm Based on the EM Technique

C.M. Fan, N.M. Namazi, and P.B. Penafiel

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 3, March 1996

Keywords: Image motion estimation, the maximum likelihood (ML) principle, the expectation-maximization (EM) algorithm, Kalman filtering, affine motion, additive white Gaussian noise.

本論文では、雑音のある測定値から期待値最大化法に基づいて 動き係数を推定する新しい反復型アルゴリズムについて その説明と実装について焦点を当てて述べる。 そして他の2つのロバストな反復型アルゴリズムとの比較も行なう。 動きフィールドは、ユニタリー級数展開によって表現されるが、 これにはいくつかの特長があることが示される。 第一に、滑らかなところとして参照されるような動きによって変わらないもの はそのまま残される、という点がある。 第二に、動きのローパス特性を用いれば、均一でない動きの推定は、 わずかな係数の推定ですむ、という点がある。 そして最後に、動き推定はモデルの必要なしに成し遂げられ得るという点であ る。 すなわち、 動きのモデルが完全に未知な場合、DCT表現は真の動きを表すのに非常に効果 的であるということである。


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.18, No.4


マルチモーダルな医用画像マッチングのための尾根探索オペレータの評価
Evaluation of Ridge Seeking Operators for Multimodality Medical Image Matching

J.B. Antoine Maintz, Petra A. van den Elsen, and Max A. Viergever

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996

ディジタル画像における尾根状の構造は、その画像とガウシアンの 導関数との畳み込みによって抽出しうる可能性がある。 畳み込みオペレータとそこで使われるパラメータをいかに選ぶかに よって、ある特定の尾根状画像が決まる。

本稿では、isophote曲率 に関連する様々な尾根測度を作り、これを 人間の脳の精査のCT/MRIマッチングにおける有用性という観点から、 レビューし評価する。 尾根測度は、初期的には二次元画像上のヒューリスティクスを用いて つくられ、それから数学的枠組においてしっかりとつくられる。 注意が払われるのは、オペレータの不変的性質の必要性、オペレータ のスケール、3次元画像への拡張性、およびisophoteで主要な曲率へ の関連性である。 ここでの尾根測度のうちの一つは、マッチングの目的によく適合するよ うに見えることが示される。しかも、その尾根測度が様式化された幾つ かのシーンにおいて、尾根検出に失敗するにも関わらず、である。

Sz


不変量決定の為の正規化手法
The Method of Normalization to Determine Invariants

Irene Rothe, Herbert Susse, and Klaus Voss

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996

Keywords: Invariants, normalization, Fourier descriptors, invariant moments, Legendre descriptors, projective invariants.

不変特徴量の決定はパターン認識の分野において重要な問題である。 これまで、正規化や他の手法を用いた多くの不変量が知られている。 本論文では正規化手法は従来示されていたよりもより一般的であること、 そして第2リスト( second list )からも同様に 多くのセットの不変量を導くことが可能であることを示す。 本論文中では正規化手法は一般化され、適用が容易な形式で表現される。 したがって、不変量の決定が単一かつ単純になる。

さらに本論文では正規化によって得られる不変量の長所/短所についても論じ る。 正規化手法のおもな長所はその過程で物体の標準位置が検出できる事である。 なお、手法の一般性によって、新しい不変量を得ることも出来る。 例えば、従来知られているよりもより安定な正規化モーメントや アフィン変換に対する不変量であるLegendre記述子や Zernike記述子、あるいはHuのモーメント不変量と正規化モーメントを組み 合わせて得る2次元フーリエ記述子やアファインモーメント不変量などを 得ることが出来る。

mNt


グラフマッチングのための段階つき配置アルゴリズム
A Graduated Assignment Algorithm for Graph Matching

Steven Gold and Anand Rangarajan

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996

ノイズが多くても高速かつ高精度な、グラフマッチングのための 段階つき配置アルゴリズムを与える。 段階をつけた非凸性、2方向の(配置上の)拘束、および希薄性を結合させる ことにより、精度と速度が大幅に改善される。 計算量のオーダーが低い[O(lm)、ここでlとmは2つのグラフにおけるリンクの 数を表す]ことと、ノイズに対してロバストであるため、従来からの 組み合わせ的な手法よりも優れている。 本アルゴリズムはある特定の種類のグラフに限定されるものではなく、 サブグラフのisomorphismや重みつきグラフマッチング、属性関係 グラフのマッチングにも適用できる。

アルゴリズムの性能を示すため、オブジェクトから導出した属性関係グラフ をマッチングさせた。 100個のノードをもつ様々な種類のランダムなグラフ(0-1リンクだけのグラフ、 重みつきグラフ、ノード属性と多種のリンクをもつグラフ)に対して 25000件の実験を行なった結果を報告する。 他のグラフマッチングアルゴリズムによる結果で比較できるようなデータ がこれまで報告されていなかったので、 緩和ラベリングアルゴリズムを用いた2500件の制御実験を行なったところ、 精度の大幅な改善が示された。


パラメトリック・非パラメトリックな分類器を伴う直交モーメント特徴の利用
Orthogonal Moment Features for Use With Parametric and Non-Parametric Classifiers

Robert R. Bailey

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996

本研究は手書き数字認識に二次元直交多項式を利用した様々な様々なアプロー チについて考察する。認識にはパラメータあり(なし)統計的とニューラル的な 分類機構をも利用している。位置、サイズおよび(できれば)回転に不変であ る積率に基づく特徴を生成するために、Legendreの, Zernikeの, 及び疑似 Zernikeの多項式が使用されている。幾何学的な積率を用いた効率的な積率の 計算方法の一つはここで提示される。この方法は尺度不変という副次効果をも 有する。最小外接円弧を用いた位置不変の新アプローチをも提示し、積率の回 転性質についての詳細的な分析をも与える。

これら様々な特徴タイプと分類機構を評価するために、データ分割テストが行 なわれた。回転不変的な文字認識の最高正解率は 91.7% であり、非回転不変 的な文字認識の最高正解率は 97.6% である。同じデータとテスト条件での一 つ前の認識結果は 94.8% だった。

ここで開発された技法は形状認識にも応用できる。


不連続変換を取り入れた構造モデルの自動構築
Automatic Construction of Structural Models Incorporating Discontinuous Transformations

Hirobumi Nishida

IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 18, no. 4, pp. 400-411, April 1996

Keywords: Character recognition, handwriting recognition, learning, shape analysis, shape transformation, structural model

不連続変換を取り入れた構造モデルの構築に対する1つのアプローチを、 手書き文字認識への応用を中心として述べる。 本論文では、この問題をある特定の種類の形状変換を許容するような形状記述を、 データセットから帰納的に構築する問題として考える。 提案する方法は、変換によって生ずる効果についての、 完全で、体系的な、高いレベルのモデルの発掘を基盤としており、 一般化のプロセスは高いレベルの変換モデルによって、 制御され、支えられている。 手書き文字等に共通して見られる不連続変換による効果に関する解析が、 完全に、かつ、体系的に行なわれ、少数の場合に分類される。 この解析をもとにして、これらの変換を許容する「スーパークラス」の推論の アルゴリズムを設計する。 さらに、例と実験を通して、提案するアルゴリズムにより、 自由手書き文字が少数のクラスに一般化され、各クラスが様々な変形パターンを 代表することを示す。 


Motion Smear からの画像の動き推定:新しい計算モデル
Image Motion Estimation From Motion Smear-A New Computational Model

Wei-Ge Chen, N. Nandhakumar and Worthy N. Martin

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996

Keywords: Motion estimation, motion smear (blur), motion-from-smear

motion smear は人間の視覚系による動きの知覚のために重要である. しかし,画像分析の研究において,motion smear はほとんど利用されていない. むしろ,motion smear は、それが本来取り除かれるべきところの画像の劣化と 見なされている。 本論文では,motion smear 情報"motion from smear"から画像の動きを推定す るための計算モデルを確立する. 画像から重要な motion smear を得るためにセンシングカメラのシャッターを 長時間開けておき,十分な信号対雑音比(SNR)を得ることが,多くの場合必要 となる.

本論文では新しい motion blur モデルと画像の動きのユニークな推定を可能に するアルゴリズムを提案する. "motion from smear"に関するデータを得るために新しい motion blur モデルを 利用したプロトタイプセンサシステムが構築される. "motion from smear"を持ちいた本アルゴリズムに対し,従来の動きの推定と同 様に,シミュレートされたものと実際のsmear画像を持ちいて実験を行なった. temporal aliasingは"motion-from-smear"に対して,転置を用いるアルゴリズム ほどには影響をおよぼさない. 明白なmotion smearが示されれば"Motion-from-smear"は動きの推定に貢献し, 現在用いられている手法を効果的に補うものとなる.


動的計画法を用いた線分検出の新しい展望
New Prospects in Line Detection by Dynamic Programming

Nicolas Merlet and Josiane Zerubia

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996

Keywords: Line detection, energy minimization, dynamic programming, curvature, satellite images.

衛生画像中の線分の検出に関する研究は15年もの間注目を集めている。 その研究には解像度やノイズおよび画像理解の問題が含まれている。 これまでに開発された最も良好な手法の1つは Fischlerの F* アルゴリズムである。 F* アルゴリズムでは、 頑強に正しくかつ高速に処理が可能である。 F* アルゴリズムは、 他の動的計画法と同様に 局所的な情報に基づいたコストを定義し、 画像中においてコストの総和を最小にする処理を行なう。 本論文では F* アルゴリズムを数学的にフォーマライズする。 それによって、 (コントラストを取扱う為の)2以上の画素の集合と (曲率を考慮する為の)1以上の隣接画素にまで コストを広げることが可能となる。 したがって全ての必要な情報(コントラスト、画素値、曲率)は デジタルの元画像上で定義される単一のコスト関数の元で合成される。 これらから算出されるコストは衛生画像中の道や谷を検出する為に用いられる。

mNt


新しい確率的弛緩法とエッジ検出への応用
A New Probabilistic Relaxation Scheme and Its Application to Edge Detection

Weian Deng and S. Sitharama Iyengar

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996

Keywords: Probabilistic relaxation, dictionary scheme, MRF, edge detection.

更新関数と辞書構築手段を含む、確率的弛緩法によるラベリングの新しい方法 について述べる。 非線形更新関数はマルコムランダム場理論とベイズの公式から導かれる。 本手法は、近傍のラベル割り付けから得られる証拠を統合し 、またラベルのあいまいさを効果的に削除する。 本手法で得られる結果は、 例えば画像復元やエッジ強調、 画素分類、画像分割などの様々な画像処理問題にとって意義のあるものである。 我々は本手法をエッジ検出に適用した。

ここで提案したエッジ検出アルゴリズムの弛緩ステップはノイズの影響を 軽減し、線の端点や角などのエッジ位置を特定するに良好な特徴を得ることが 出来る。また出力するエッジを絞り込む重要な役割を果たしている。 本手法が、収束が速くかつノイズに強いことが、実験によって示された。


レーダー画像における直線エッジ検出のための変形可能テンプレートアプローチ
A Deformable Template Approach to Detecting Straight Edges in Radar Images

Sridhar Lakshmanan and David Grimmer

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996

本論文は地面近くに固定されているミリ波レーダープラットホームから得ら れた画像に2本のまっすぐで平行な二本の道路端の位置決めをする問題につ いて論ずる。 この問題解決に当たって、高速かつ頑健で、完全にデータ駆動的な Bayes的な解法が開発されたが、これは自動車ビジョンの増強に応用できる。

本論文での方法は次のようなものを使用している、つまり、期待した道路端 の変形可能なテンプレートモデル、地面レベルミリ波(ground-llevel millimeter-wave, GLEM)レーダーのイメージングプロセスの2パラメータの log-normal モデル、直線エッジ検出問題の最大事後(maximum a posteriori) 定式化、事後密度の最大化の Monte Carlo のアルゴリズムである。

実際の道路でのGLEMレーダーの画像にこの方法を適用した実験結果が提示さ れた。この方法の性能の評価は、様々の道路シーンの実際状況と照らし合わ せて行なわれる。


混合変形モデル
Blended Deformable Models

Douglas DeCarlo and Dimitri Metaxas

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996

この論文では,関数の混ぜ合わせを用いて,2つのパラメーター化された形を, それらの主軸に沿った線形補間に基き新しいパラメーター化されたモデルのク ラスを開発することについて述べる. この混合関数は,各々の要素の形に比例した影響を,結果の混合形上にもたら すことになる. 結果の混合形は,各々の要素の形の特色をもつことができる. 少数のパラメーターの付加を用いると,混合は形のプリミティブの影響範囲を 拡張し,また形の概念を与える. 特に,それは属性が変化しうるような形をつくる能力を与える. 混合モデルは,力学的な変形モデルを用いた物理的な形の評価の枠組になぞら えられる. 最後に,距離画像からの複雑な形の抽出と,力学的な属性の変化の例について の実験を示す.


4つの光源によるステレオ光度測定による 鏡のような葉様物体(Specular Lobe Object)の形状と粗さの抽出
Extracting the Shape and Roughness of Specular Lobe Objects Using Four Light Photometric Stereo

Fredric Solomon and Katsushi Ikeuchi

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996

Keywords: Photometric stereo, Torrance-Sparrow model, specular lobe, roughness, segmentation, shape, inspection.

表面の形状と粗さを測定する非接触法を提案する。 ”4光源によるステレオ光度測定”と呼ぶこの方法は、 順番に対象物体を照らす4光源と、その物体を撮影するビデオカメラを使用す る。 本手法は多くの実画像に対して成功を収めた。


3画素間の相互作用のある簡潔で集積された動きセンサー
Compact Integrated Motion Sensor With Three-Pixel Interaction

J. Kramer

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996

受光素子がチップに組み込まれた集積回路について述べる。 この回路は、焦点面上の与えられた軸に沿って動く視覚刺激を2地点において 検出し、その時間遅延を測ることによって視覚刺激の双方向の速度を計算する。 回路が簡潔なので、このような動き感知素子の高密度な配列をモノリシックに 集積することができる。 このことによって、画像の速度場を推定したり、局所的な或は大域的な 相互作用によってより高レベルな画像特徴を抽出することができる。

Y.A.


オフライン筆記認識における大局的な単語形状処理
Global Word Shape Processing in Off-Line Recognition of Handwriting

Christophe Parisse

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996

単語形状の簡易的なプロファイルを用いることで、オフラインの筆記 認識ができる可能性がある。 ここで言うプロファイルとは、単語の上部輪郭と下部輪郭の近似結果からなるも のである。 学習と認識は、n-gram の抽出と同定に基づいている。 語彙数は、16000単語に及ぶ。

Sz


認識と分類のための3次元モデルと2次元画像の距離測定方法
Distance Metric Between 3D Models and 2D Images for Recognition and Classification

Ronen Basri and Daphna Weinshall

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 4, April 1996

Keywords: Affine deformations, 3D-to-2D metric, object recognition, exterior orientation calibration.

3次元物体と2次元画像との類似性の測定は物体認識と分類の研究課題に取っ て有益である。画像空間の中で計算されたメトリックスと変換空間の中で計算 されたメトリックスの2つの類似性で識別する。従来方法の典型は画像メトリッ クス、すなわち観測された画像と最も似かよった物体との間の画像としての差 を測定する方法を使用する。そのような測定の例としては、画像の特徴点と最 も似かよった物体の体勢での対応点のユークリッド距離がある。(この測定は 外形の方向のキャリブレーションの問題を解くことで計算できる)

本論文では、変換空間でのメトリックスという異なるタイプのものを導入する。 これらのメトリックスは観測画像を生成するために物体に加えられる変形に制 限をもうけるものである。特に、アフィン変換に対して弱い遠近法のもとで最 適に制限をもうける変換メトリックスを定義する。このメトリックスによって 最も似かよった物体の体勢といっしょに閉じた形状の解決方法が得られる。こ のメトリックスは上からと下からとでそれぞれ境界をつけるという意味で、ユー クリッド距離の画像メトリックスと等しいということを示す。それによってモ デルと画像の間の共通に使える最小自乗距離に対して使いやすい閉じた形状の 近似が提供できる。撮影機のバッテリーチャージャーの本当の次元を変換メト リックスを最小にすることにより推定するという画像認識の応用を説明する。


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.18, No.5


ファジー推論を用いた画像フィルタリング、エッジ検出、およびエッジ追跡
Image Filtering, Edge Detection, and Edge Tracing Using Fuzzy Reasoning

Todd Law, Student Member, IEEE, Hidenori Itoh, and Hirohisa Seki, Member, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996

Keywords: Fuzzy reasoning, filtering, edge detection, tracing, joins.

本稿では、画像のエッジ検出問題を、ファジー推論問題として特徴づける。 エッジ検出問題は、三つの段階に分けられる。それは、フィルタリング、 エッジ検出、およびエッジ追跡である。 まず画像のフィルタリングであるが、これは、局所的な画素特徴に基づく ファジー推論を適用して、ガウシアン平滑化の次数の制御することにより なされる。 それから、フィルタリングされた画像に簡単なエッジ検出アルゴリズムを 施し、これによって各画素のエッジらしさを求める。すなわち、画像の局 所的な特徴に基づいて、各画素のエッジらしさを表すファジー・メンバシ ップ値を求めるのである。 最後に、高いメンバシップ値を取る画素を追跡し、これを構造化する のだが、ここでもまたエッジ追跡を進める過程でファジー推論を用い ている。 いくつかのテスト画像において、フィルタリングとエッジ検出、エッジ 追跡アルゴリズムのテストを行なう。 比較の対象として、標準的なエッジ検出法を用いた。

Sz


制御された動画像からの3次元構造抽出
Structure From Controlled Motion

Francois Chaumette, Samia Boukir, Patrick Bouthemy, and Didier Juvin

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996

Keywords: Computer vision, robotics, active vision, structure from motion, vision-based control.

本論文では1つの動くカメラを用いて 動画像中から物体の3次元情報を取得する方法について論じる。

提案する手法では、 「既知の動きからの構造」( structure-from-known-motion ) 問題に対して良く用いられる公式を用いて 点,線,円筒,球など様々な種類の 幾何学的な3次元プリミティヴを取扱う。

その際、プリミティヴを抽出する過程で生じる 測定誤差の違いの影響を最小限にすることも目的としている。

提案手法では精密に3次元情報を取得する為に、 カメラの光学的配置と動作を数学的に決定する。 それによって、3次元構造変数を頑強に精度良く算出する事が出来る。 その際、カメラの動きは画像データに関する閉ループの制御法則を用いて制御する。

最後に3次元構造もちいて点と円筒を見積もる実時間の実験を示し、 その結果から、本手法が3次元構造変数の算出の精度を飛躍的に向上させることを示す。

mNt


陰多項式と代数的不変量を使用した 2Dおよび3D物体の実用的で信頼のおけるベイズ識別方法
Practical Reliable Bayesian Recognition of 2D and 3D Objects Using Implicit Polynomials and Algebraic Invariants

Jayashree Subrahmonia, David B. Cooper, and Daniel Keren

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996

Keywords: Implicit polynomials, algebraic invariants, Bayesian recognition, Mahalanobis distance.

球や平面や円筒などの2次曲線や曲面のあてはめは、 コンピュータービジョンで対象となるような物体のモデリングや認識に おいて幅広い用途がある。 本論文では、より複雑で高次な曲線と曲面 (それは物体認識と位置推定のための多くの有効な情報を持つ) を扱い、またそれを部分画像や雑音のある画像に適用した時の 不安定性の問題の解決を図る。 本論文で論ずるところの概略は以下に示すところである。 すなわち、陰多項式関数としてモデル化された物体の集合か、または 各物体それぞれが、陰多項式関数としてモデル化されたクラス内 に含まれるような物体のクラスの表現の集合 をデータベースに持つというところにある。 本論文の目的は、物体の一部が与えられた時に、 物体(またはそのクラス)を認識すること、または より信頼できる認識を行なうためのよりよいパラメータを推定する ためにさらにデータを収集することである。 この道筋で行く場合に生じる2つの問題を本論文では論じる。 1)係数(それは全体を記述するものである)をもって比較を行なうか、 代数的不変量(すなわち、データの移動や回転他一般的な 線形変換に独立な多項式係数の関数)を持って比較を行なうことによって これら多項式の認識を行なう問題 2)できるだけ速いパラメータの推定を実現するためのデータの収集を 行なうという問題 我々はこの問題を確率の枠組の中で公式化することで解決する。 上記の2つの問題に対する有望な解決策を生み出す漸近ベイズ近似 を我々は用いる。 本論文のキーとなるアイデアは、 多項式の固有次元性と、係数または代数的不変量をもって多項式を比較する のに有効な道具としてマハラノビス距離を使用することである。


非線形フィルターによる尺度空間 多重非線形分解:ふるい分解定理
Scale-Space From Nonlinear Filters Multiscale Nonlinear Decomposition: The Sieve Decomposition Theorem

J. Andrew Bangham, Paul D. Ling, and Richard Harvey J. Andrew Bangham, Pierre Chardaire, C. Jeremy Pye, and Paul D. Ling

IEEE Trans. Pattern Anal. Machine Intell., Vol.18, No.5, May 1996. IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996

Keywords: Mathematical morphology, median filters, ordinal filters, rank, granularity, granulometry.

極値に基く画像の分解は,線形ビジョンシステム上の問題を尺度空間上の問題 に置き換える. 離散1次元ふるい,M型およびN型ふるい(最大値フィルターや最小値フィル ターを組み合わせた非線形フィルターの一種)は,尺度の増加につれて新しい エッジを導き出さないし,新しい極値をつくりもしないことが証明される. また,拡散フィルターもこの性質を有している. それらはロバストであり.大きな尺度の特徴のエッジを保存する.

ふるいは1次元の有界関数、例えばfをincreasing scale granule functionsの 系列(={d}→*参照)に分解すると、それはある意味では線形分解 によって得られたウェーブレットのピラミッドに類似している情報を表す。

*{d}は正しくは以下の通り。

          R
    { dm }      (dm の m は添え字)
          m=1
ふるいは平らな構造の素子のincreasing scale open-closingsの系列に 基づいており、fから{d}へ写像し、 再構成は全てのgranule functionsを足したものからなり、{d}からfへ写像する。 実験はより一般的な特性が存在することを示している。 すなわち、{d'}をf'に写像し、{d'}に逆写像する。 ここで、granule functions{d'}は{d}に任意の作用素αを適用することによって 得られる。 αはいくつかのgranuleの符号を変えずに、振幅を変化(0を含む)させる。 換言すれば分解によって生成された、granule function vectorsの 集合は、作用素αによって閉じられる。 すなわち、{d'}がf'に写像され、{d'}に再び写像されて元に戻る。 この特性の解析的な証明を示す。 特性とは、フィルターが特徴認識をするのに有用で さらに、ふるいのノイズに対する抵抗(強さ)の解析への道を開く。


一般的な多視点画像のレジストレーション法に向けて
Towards a General Multi-View Registration Technique

Robert Bergevin, Marc Soucy, HervGagnon, and Denis Laurendeau

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996

一組の距離画像列が与えられたときに、それぞれの画像間のレジストレー ション誤差を大幅に低減するアルゴリズムを提案する。 本アルゴリズムは、測定結果もしくは適当に人手で作ったデータ から得られる変換行列の初期推定を改善する。 反復最近傍点アルゴリズム(ICP)として知られるレジストレーション 手法に分類されるアルゴリズムだが、ここでは 画像全体を結ぶネットワークを考え、すべての画像のレジストレーション 誤差を同時に最小化している。 これにより、レジストレーション誤差が均等に分散するような、 バランスの良い画像ネットワークが得られる点で、 画像を直列に処理する従来のICPよりも優れている。 実験の結果、測定結果にもとづくレジストレーションが改善され、 多数のパーツからなる複雑な物体に対して、構築されるモデルの質が 向上することがわかった。 単純な形状からなる人工物の画像の場合は、基本アルゴリズムが ICPに共通の問題に直面するので、拡張が必要である。


分割非依存隠れマルコフモデリングと 分割依存ダイナミックプログラミング法を用いた 手書き単語認識
Handwritten Word Recognition Using Segmentation-Free Hidden Markov Modeling and Segmentation-Based Dynamic Programming Techniques

Magdi Mohamed and Paul Gader

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996

Keywords: Hidden Markov models, dynamic programming, handwritten word recognition, character recognition, neural networks, character segmentation.

本論文は分割非依存と分割依存の手法を組み合わせた,語彙に基づいた 手書き単語認識システムについて述べる. 分割非依存の方法は各々の語彙の文字列の連続密度隠れマルコフモデル を構成する. 分割依存の方法は単語イメージと文字列のマッチングにダイナミックプ ログラミングを用いる, 優れたパフォーマンスを得るために,結合モジュールは分類能力の差異 を利用している.


テクスチャ境界の局所化におけるモーフォロジー・フィルターの効果
The Effect of Morphological Filters on Texture Boundary Localization

J. Alison Noble

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996

Keywords: Low-level processing, texture analysis, mathematical morphology, image filtering, median filter.

本論文では[1]における理論的な結果を2つの対象に拡張し、1次元モーフォ ロジー・フィルターのエッジ局所化とスムージング・フィルターの古典的な2 つのタイプ(平均フィルターとモーフォロジー・フィルターに考え方が似てい るメディアン・フィルター)のフィルターとを定量的に比較した。統計的なテ クスチャー・セグメンテーションについて簡単に議論する。


任意の角度の離散的な直線に沿った収縮と膨張の再帰的実現法
Recursive Implementation of Erosions and Dilations Along Discrete Lines at Arbitrary Angles

Pierre Soille, Edmond J. Breen, and Ronald Jones

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, pp. 562-567, May 1996

Keywords: Mathematical morphology, image filtering, algorithms, recursivity, line and periodic structuring elements, radial decompositions.

任意の長さの線分からなる structuring element による収縮・膨張演算が、 1ピクセルあたり3回の最小・最大操作で実現できることが、Van Herk によ り示されている。 本論文では、そのアルゴリズムを、 任意の角度の離散的な直線に沿った収縮・膨張に対して拡張する。 また、 中間バッファとの間でピクセルをコピーすることをしなくても、操作を可能に することを考える。 応用として、画像フィルタリングと円盤の動径分解について述べる。


パターン分類用の重み付きParzen窓関数
Weighted Parzen Windows for Pattern Classification

Gregory A. Babich and Octavia I. Camps

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996

Keywords: Nonparametric classifiers, Parzen-windows, kernel estimator, clustering, training samples, discriminant analysis, Bayes error, leave-one-out, holdout.

本稿は重み付きParzen窓型の識別器を紹介する。提案された技法は clustering 手順を用いて参照ベクトルの集合及びParzen窓(カー ネル評価器)識別器を近似する重みを見つける。この重み付きParzen窓型 識別器に必要とする計算と容量はフルParzen窓型識別器より少ない。 実験結果は次のことを示した、合成または実のデータセットに意味のある節約 を達成するには、最小のエラー率(もしあれば)の度合を下げることしかでき ない。


人工的なニューラルネットワーク型識別器の高次空間におけるふるまいについて
On the Behavior of Artificial Neural Network Classifiers in High-Dimensional Spaces

Yoshihiko Hamamoto, Shunji Uchimura, and Shingo Tomita

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 5, May 1996

Keywords: Artificial neural networks, generalization error, dimensionality, training sample size, peaking phenomenon, 1-NN classifier, Parzen classifier.

パターン認識の分野では、以下のことが広く信じられている。すなわち、 用いる学習サンプル数を一定として識別器を設計する場合には、特徴数 が増すにつれて、識別器の一般化誤差も増加するということである。 本稿で論ずるのは、人工的ニューラルネット(ANN)型識別器の一般化誤差 が、高次元空間においていかにふるまうかについてである。 ただし、特徴次元数に対する学習サンプルの比率は小さい、という現実的 な条件の下で考えることとする。 実験結果によれば、ANN型識別器の一般化誤差は、特徴次元数に対して 1-NNであるParzen型の二次識別器に比べて、はるかに敏感ではないと思わ れる。

Sz


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.18, No.6


マルチレイヤークラスタニューラルネットワークを用いた オフライン自由手書き数字認識
Off-Line Recognition of Totally Unconstrained Handwritten Numerals Using Multilayer Cluster Neural Network

Seong-Whan Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996

本論文ではオフライン自由手書き数字認識の為の新しい手法を提案する。 提案する方法では単純なマルチレイヤークラスタニューラルネットワーク をバックプロパゲーション法で学習させる。 最急降下法でマルチレイヤークラスタニューラルネットワークを 学習する過程において、極小値へ落ち込むことを 遺伝アルゴリズムを用いることで防いで認識率を高めている。

提案手法では特徴ベクトル抽出の為に Kirsch マスク処理を行ない、 類似する文字を効率的に分類する為の 5つの独立サブネットを持つ3層のクラスタニューラルネットワークを用いる。

提案するマルチレイヤークラスタニューラルネットワークの性能を確認する為に、 カナダ Concordia 大学、(日本の)電総研 、 韓国の Electronics and Telecommunications Research Institute の 手書き数字データベースを用いて実験を行なった。

初期ウエイトを遺伝アルゴリズムを用いて定めた場合、 それぞれのデータベースに対する認識率は 97.10%, 99.12%, 99.40% であった。

mNt


信頼性のあるオンライン筆者識別システム
Reliable On-Line Human Signature Verification Systems

Luan L. Lee, Toby Berger, and Erez Aviczer

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996

オンラインの筆者識別システムを設計しテストを行なった。 タブレットから入力した(x(t), y(t))の形からなる10,000以上のサイン のデータベースを用意した。 まず42個の特徴を抽出し、さらには、 偽造に対する識別能力を保ちつつ本物のサイン間の不一致に耐えられる 49個の正規化した特徴を得る。 トレーニングデータの有効性とシステムの複雑さのレベルに 従う特徴の、選別と場合によっては直交化を行なうアルゴリズムを 我々は研究した。 いくつかの識別器のタイプについて調べた。 我々の主たる識別器の改良版の性能を以下示す。 同一筆者であると認識できなかったエラーが2.5%。 第三者のサインを100%リジェクトするようにした時に、 正しい筆者をリジェクトしてしまうのはわずか7%に留まっている。 これは本物のサインの速度に十分であり、 そしてわずか15個の特徴を使用するだけである。


変形弾性体の変位場適合による正則化への張力エネルギーに基くアプローチ
A Strain Energy Approach to Regularization in Displacement Field Fits of Elastically Deforming Bodies

Daniel K. Bogen and David A. Rahdert

IEEE Trans. Pattern Anal. Machine Intell., Vol.18, No.6, June 1996.

変形適合問題において,変位場を正則化する従来の方法は回転に敏感である. 我々はゴム状物質における張力エネルギーのような回転に左右されない正則化 汎関数を提案する. 変形適合問題は,物体の一様ではないような回転を,逐次近似を繰り返し用い て解かれる.


実時間双方向探索:不確定状態における調和された問題解決法
Real-Time Bidirectional Search: Coordinated Problem Solving in Uncertain Situations

Toru Ishida

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996

本論文は実時間双方向探索(RTBS)アルゴリズムについて述べる。 このアルゴリズムは、2つの問題解決手段が 初期状態と最終状態からスタートし、お互いに物理的に前へ動く。 このRTBSを評価するために、2種類のアルゴリズムを提案し、 実時間の単方向探索と比較した。 一つは集中RTBSで、監督者が二つの問題解決手段の 可能な全ての動きの中から最良の行動を選ぶ。 もう一つは非連結RTBSで監督者はおらず、二つの問題解決手段は 独立にそれらの次の動きを選ぶ。 迷路と、n-パズルに関する実験で以下のことが示された。 1) 明らかな状況では非連結RTBSが良い 一方不確かな場合には集中RTBSがより効果的である。 2)RTBSは15-パズル、24-パズルに対しては実時間単方向探索よりも効果的であるが、 ランダムに生成された迷路に対しては効果的でない。 問題解決法の構成を選択するということは、構成的な効果の基準を決定する 問題空間を選択することが示される。 一旦難しい問題空間を選択すると、問題解決手段間の局所的な調整では 欠損を克服するのは難しい。


正規化ストリングエディット問題の再考察
The Normalized String Editing Problem Revisited

B. J. Oommen, Senior Member, IEEE, and K. Zhang, Member, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996

最近、MarzalとVidalが2つのストリング間の正規化エディット距離を 計算する際の問題について考察し、その尺度を用いた手書き文字 認識実験の結果を報告している。 彼らの論文では尺度の理論的性質を定式化し、その計算アルゴリズムを 2つ提案していた。 本文では、この尺度が先の文献の中ですでに定義されている補助尺度 ---ストリング間限定エディット距離と、どのような関係にあるかを示す。 後者を使うと正規化エディット距離が効率よく計算できる。つまり ここで与えられるやり方を使えば、先に報告されていた 解析的・実験的結果をまったく同じ精度で、しかもより効率よく 得ることができる。


オプティカルフローを用いた 大量の連続画像からの人間の表情の認識
Recognizing Human Facial Expressions from Long Image Sequences Using Optical Flow

Yaser Yacoob and Larry S. Davis

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996

本論文では連続画像からの表情の認識のための,表情の移り 変わりの分析と表現法について述べる. 人間の表情としての動きと表情以外の動きの方向を見分ける ために,本アルゴリズムではオプティカルフロー計算を用いる. 心理学的な考察に基づく中間レベルの記号表現を提案した. 目の瞬きのような六つの表情の表現が大量の連続画像で示された.


動きからの機能抽出
Function From Motion

Zoran Duric, Member, IEEE Computer Society, Jeffrey A. Fayman, and Ehud Rivlin

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996

ロボットがその環境において自律的に操作を行なうためには、環境を認知し、 その認知に基づいた行動を取ることができなければならない。ある物体の機能 性を認識することはこの能力の重要な要素となる。

本論文では、機能性認識の新しい領域を研究する。それは物体の機能をその動 きから決定することである。いくつかの既知の機能を持つ物体の連続画像が与 えられれば、その機能が何なのかを決定する。物体の動きは、物体についての 情報とその普通の使い方を組み合わせた時、その物体が取り得る機能に強い制 限を与えることを示す。


不連続性の制約つき復元と回復への、 Geman と Reynolds による方法の拡張
An Extension of Geman and Reynolds' Approach to Constrained Restoration and the Recovery of Discontinuities AUTHOR: Merrilee Hurn and Christopher Jennison

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, pp. 657-662, June 1996

Keywords: Statistical image reconstruction, discontinuity recovery, parameter selection, Gibbs sampler, Metropolis algorithm, simulated annealing

Geman と Reynolds により、 ぼけとノイズが加わった観測画像から、 水平と垂直方向の濃淡値の不連続性を復元することができるような、 線形の画像復元の方法が提案されている。 本論文では、対角線方向の不連続性も復元できるようにするために、 彼らのモデルとパラメータ選択の方法を拡張する。 また、このようなモデル化の方法の危険性について述べ、 彼らの論文で提案された truncated Gibbs sampler についても批評する。


高精度の光学文字認識のためのフォーム設計
Form Design for High Accuracy Optical Character Recognition

Michael D. Garris and Darrin L. Dimmick

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996

文字認識技術をうまく応用するためには、現行の手作業で出来たフォームの殆 んどは設計し直す必要がある。本論文は、再設計した税務フォームの三つのバー ジョンに対する幅広い研究の結果を提示する。分析によれば、一定の間隔を離 れた文字枠の使用はくし状線分を含めた領域または隣接する文字枠の使用より マシンの読みとる性能が向上する。縦に積み重ねている二個の卵形を有する文 字枠は筆記者に多大の困難を引き起こす。解析では、フォームへの筆記者の個 人に特有の反応はエラーの主要な原因であり、適切なフォーム設計はこのよう なエラーを低減できることを証明した。


最近傍探索アルゴリズムを分割するための複雑度解析
Complexity Analysis for Partitioning Nearest Neighbor Searching Algorithms

Pierre Zakarauskas and John M. Ozard

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996

本稿では、Minkowskiのp-metricに従って、あるテストパターンに対する k−最近傍の探索のためのコスト評価について述べる。これは、探索アル ゴリズムの分割におけるバケットサイズの関数となる。 最近傍を探索するためのオペレーションの数の漸近的な期待値は、 バケットn当たりの平均のパターン数の関数となり、これが最小値を含む ことが示される。

Sz


区分適応型の最短距離法によるクラスタリング
Discriminant Adaptive Nearest Neighbor Classification

Trevor Hastie and Robert Tibshirani

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996

最短距離法によるクラスタリングでは条件付き確率が 局所的に一定とみなしており、 それゆえに高次でのバイアスに苦しんでいた。 本論文では高次でのバイアスの問題を改善する為に 局所適応型の最短距離法 ( a locally adaptive form of nearest neighbor classification ) を提案する。

提案手法では neighborhoods を決定するのに効果的な距離を算出する為に、 局所的線形区分解析 ( a local linear discriminant analysis ) を用いる。 局所的線形区分解析では重心の情報から局所的な区分境界を決定し、 その局所的な区分境界に直交する方向に neighborhoods を縮退させ、 それらを境界に平行な方向に伸ばす。

局所的線形区分解析を行なった後、 修正された neighborhood を用いて 階層的手法によりクラスタリングを行なう。 この場合、事後確率は修正された neighborhood ではより一様になる傾向がある。

なお、本論文では局所的な次元の情報を統合する 全体的な次元の圧縮手法も提案する。

最後に多くのデータを用いて提案手法は 従来の最短距離法を相当に上回る可能性があることを示している。

mNt


手書き数字認識における発生モデルの使用
Using Generative Models for Handwritten Digit Recognition

Michael Revow, Christopher K.I. Williams, and Geoffrey E. Hinton

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 6, June 1996

スプライン曲線の長さ方向に沿ったガウシアン”インク生成器”を伴う、 変形可能なBスプラインによって発生モデルを構築する。 そして当該発生モデルの当てはめによって手書き数字の認識を 行なう方法について、説明する。 データを生成するモデルの見込みを最大にするような 期待値最大化(EM)アルゴリズムをベースとした、 新しい弾性マッチング処理によって当該スプライン曲線は 当てはめが行なわれる。

このアプローチは多くの利点を持つ。

1)データを生成するに最も適当なモデルの特定の後、 数字の識別だけでなく、 筆記スタイルの情報を生み出すことのできる 具現化パラメータの豊富な情報を得られる。

2)画像走査の最中に、 生成モデルは認識主導の分割を行なうことができる。

3)本方法は比較的少ないパラメータしか使用しないので、 トレーニングは比較的簡単で速い。

4) 他の認識方法とは異なり、前処理として入力画像の正規化を必要としない。 そして画像の任意のスケーリング、移動、そして角度に制限付きながら 回転したものも扱うことができる。

本方式が、ローカルミニマムに落ちずにモデルを入力画像にフィットさせる 様子を示す。 本方式の問題点は通常のOCR処理よりも計算時間がかかることである。


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.18, No.7


距離画像分割アルゴリズムの実験的評価
An Experimental Comparison of Range Image Segmentation Algorithms

Adam Hoover, Gillian Jean-Baptiste, Xiaoyi Jiang, Patrick J. Flynn, Horst Bunke, Dmitry B. Goldgof, Kevin Bowyer , David W. Eggert, Andrew Fitzgibbon, and Robert B. Fisher

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 7, July 1996

Keywords: Experimental comparison of algorithms, range image segmentation, low level processing, performance evaluation.

本論文では距離画像分割アルゴリズムの評価法を提案する. この方法は以下の1),2)の二つを必要とする. 1) 正しい位置,形状を与えられた40のレーザーレンジファインダー 画像および40の structured light scanner 画像の共通集合 2)性能基準の定義(たとえば,正しく分割されたか誤ったか,分割の上下での ノイズ領域,復元された位置,形状などの正確さなど)

toolを用いることで正しい位置,形状に対して得られた機械による分割の 比較を客観的に行なった. 物体の距離画像データを小さな(位置と大きさと向きがわかった)平面の 集合に分割するアルゴリズムの評価では4つの研究グループが貢献した。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


文字のセグメンテーションに関する方法と考え方のサーベイ
A Survey of Methods and Strategies in Character Segmentation

Richard G. Casey and Eric Lecolinet

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 7, July 1996

Keywords: Optical character recognition, character segmentation, survey, holistic recognition, Hidden Markov Models, graphemes, contextual methods, recognition-based segmentation.

文字のセグメンテーションはOCR処理において古くから重要な技術分野であっ た。1文字1文字分離された文字に対する認識率と単語や接触文字列に対する 認識率の比較競争はこのことを良く表している。制限のない活字や手書き文字 の認識分野での最近の進歩の一翼は、より良く考えられたセグメンテーション 技術が担っているかも知れない。

本論文ではこれらのセグメンテーション技術に関する最近の進歩のレビューを 行なう。技術のリストをまとめるというよりは開発された技術の系統に対する 評価を目的としている。セグメンテーション技術を4つの系統に分類している。 1)従来のアプローチとでも呼ぶべき方法は入力画像を部分画像に分割し、そ の時に1文字を決定する。入力画像に対して切り出し可能な部分画像に分解し てみる操作を"解剖"と呼ぶ。 2)第2の系統はこの"解剖"を避け、入力画像に対して明示的にあらかじめ定 めた窓で区切るか、画像全体の空間的特徴から区切る方法である。 3)第3の系統は1番めと2番めの方法の組合せで、可能な区切りを定義する ために再統合ルールを使って"解剖"を行なうが、1文字として区切られた場合 に1文字としての尤もらしさの許容範囲の中で部分画像を選ぶ。 4)第4の系統は文字列全部を1ユニットとして認識することでセグメンテー ションを避けようという全体論的なアプローチである。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


幾何確率的なモデルと推定を用いた、航空写真からの主要道路の自動検出
Automatic Finding of Main Roads in Aerial Images by Using Geometric-Stochastic Models and Estimation

Meir Barzohar and David B. Cooper

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.18, No.7, pp.707-721, July 1996.

Keywords: Geometric-probabilistic models, Gibbs distributions, maximum a posteriori probability estimation, road geometry model, Gaussian driving noise, dynamic programming, model-based segmentation.

本論文では、道路画像生成の幾何確率的モデルの構築に基づいた、 航空写真からの主要道路の自動検出方法を示す。 Gibbs分布を用いて、与えられた画像から、MAP(最大事後確率)推定により、 道路を発見する。 画像をウィンドウに分割することによりMAP推定を取り扱い、まず、 ダイナミック・プログラミングを使って各ウィンドウでの推定を行い、 次に、高い信頼度の推定が得られたウィンドウから開始して、 存在する道路の最適な大局的推定を得るために再び ダイナミック・プログラミングを用いる。 提案する方法は、初期処理からモデルを基盤としており、 これまでに発表されている方法とは完全に異なるものである。 各道路に対して2つの境界を生成し、中央分離帯があるときには4つの境界を 生成する。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


周期性、方向性、および任意性:画像のモデル化と検索のためのWold特性
Periodicity, Directionality, and Randomness: Wold Features for Image Modeling and Retrieval

Fang Liu and Rosalind W. Picard

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 7, July 1996

Keywords: Wold-based image modeling, pattern analysis, texture modeling, digital libraries, content-based image retrieval.

パターン認識における基本挑戦の一つはある問題のクラスに適切な特徴の集合 を選択することである。データベース検索のようなアプリケーションにおいて、 パターンの比較に使われている画像特徴が画像の感覚的な相似性によい尺度を 与えていることが重要である。

本論文では、我々が感覚的な相似性に挑戦する新しい特徴集合を持つ画像モデ ルを提示する。このモデルは、均一任意性を持つフィールドの2次元Wold 分解に基づくものである。 結果として得られた相互に直交している三つのサ ブフィールド(周期性、方向性、と任意性)は人間のテクスチャ感覚の最も重 要な次元に近い性質を持っている。ここで提示された方法は早期のWoldベー スドモデルを次の2点において改良した。つまり、自然テクスチャに現れた様々 な局部的な不均一性に寛容性を持つことと、回転のような画像変換に対する不 変性を持つことである。

この新しいテクスチャモデルに基づく画像検索アルゴリズムを提示した。ベー スの確率論的なアプローチで相似性を比較するために異なるタイプの画像特性 を集めた。二つ良く知られているパターン認識方法との比較によって、感覚的 に似ている自然テクスチャの検索におけるWoldモデルの有効性を証明した。 幾つか自然景色のWoldテクスチャモデル化の事例をも提示した。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


OCRのためのN組特徴の再考
N-Tuple Features for OCR Revisited

Dz-Mou Jung, M.S. Krishnamoorthy, George Nagy, and Andrew Shapira

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 7, July 1996

Keywords: Backtracking, character features, classification, decision trees, distinguishing string, missing configuration, n-tuples, OCR, simulated parallelism.

1960年代よりこのかた、文字認識にN組特徴を使うということは、 わずかな注意を集めるのみであった。 コンピュータ技術とコンピュータ・サイエンスは進歩を遂げてき たわけであるが、本稿において我々の主たる目的は、それらが興 味・関心の一新を余儀なくしたことを示すことにある。

N組特徴は、活字識別に有用だと言える。というのは、あるパタ ーン中に、n個の黒・白画素の特定の配置があるかないかが示さ れるからである。 望ましいn組とは、以下のものである。すなわち、特定の学習セ ット(つまり正集合)の各パターンには、少なくとも p だけずれ た位置まではよく合致し、さらに特定の学習セット(つまり負集 合)の各パターンには、少なくとも n-p までずれるそれぞれの 位置において合致しない、というものである。

本研究では、2値ストリングを用いる副問題(これは誤配置問題 と呼ばれる)を調べることで、識別のためのn組を発見する問題 が NP 完全であることを証明する。 NP完全性という結果にも関わらず、現代のワークステーションで あれば識別可能なn組を2、3秒で自動的に見つけることができ る。 わずかな学習セットを元にn組の集まりを生成する、実用的な探 索アルゴリズムを示す。このn組は、クラス条件付き相関が低く、 しかも特定の設計パラメータ n,p,q を伴うものである。

この生成器は、インターネットで利用可能であり、ベンチマーク を用いた比較を通して効果的であることが経験的に示されている。 設計パラメータが有用なトレードオフを与えることを、実験により 示す。トレードオフというのは、識別能力と生成時間の間における それであり、さらにまた正クラスと負クラスに対する条件付き確率 の間におけるそれである。 様々な2分法に対して獲得可能な特徴確率を探究し、設計パラメー タが特徴確率を制御することを示す。

Sz

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


保存と測定における直線エッジ形状のサブピクセル精度での検出
Subpixel Precision of Straight-Edged Shapes for Registration and Measurement

Lawrence O'Gorman

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 7, July 1996

Keywords: Registration, precision, fiducial marks, machine vision, image processing, metrology, subpixel precision.

一般的に画像平面上でエッジを特定の位置に配置したり、逆にエッジの位置を測定する際 の精度は 画像のサンプル密度によって制限される。

本論文においては、まず、エッジや線分や直線エッジの位置を算出する場合に、 その精度が最悪の場合の誤差は定めることが可能であることを示す。 そしてそれぞれの場合について、 幾何学的変数の関数として、いかにして最悪の場合の誤差を小さくできるかを示し、 その結果を利用することで、既知の形状がどこに位置するかを測定する際の 最悪の場合の誤差を定めることが出来ることを示す。

本手法は例えば電子部品の組み立てに特定の位置合わせマークを用いる場合の様に、 特定の形状の物体を(小さい誤差で)画像として保存する際に、 画像上での形状をデザインする場合などに応用可能である。

本論文では、(0,45,90度以外の)方向に傾き角度に応じた幅で位置の測定を行な うことで、 高精度に直線エッジ領域の位置の測定を行なうことが出来ると結論づける。

mNt

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ブートストラップによるバイアスのない楕円推定
Unbiased Estimation of Ellipses by Bootstrapping

Javier Cabrera and Peter Meer

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 7, July 1996

Keywords: Implicit models, curve fitting, bootstrap, low-level processing

ブートストラップによる、非線形推定器のバイアス除去の一般的方法を示す。 従来の平均値バイアスの代わりに、メジアンをベースとしてバイアスを定義す ることを考える。 ノイズィなデータへの楕円片当てはめ問題にこの方法を適用する。 誤り分布について 独立同等分布(independent identically distributed = i.i.d)であること を前提とした仮定は必要としない。 合成データおよび実データに対する実験により本方法の有効性が示された。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


文字間が非分離のオンライン手書き単語の大規模な単語集からの認識
Large Vocabulary Recognition of On-Line Handwritten Cursive Words

Giovanni Seni, Rohini K. Srihari, and Nasser Nasrabadi

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 7, July, pp.757-762, 1996

本論文では,筆記者に依存しない,文字と文字との間をつなげて書かれた オンライン手書き単語を大規模な単語集から認識するシステムについて述 べる.本システムでは,膨大な参照辞書をより扱いやすい量に縮小するた めに,まず単純な文字の特徴に基くフィルタリングモジュールを用いる. 次に,そのようにして縮小された参照辞書の単語を認識モジュールに入力 する.認識モジュールでは,入力を二次元の画像ではなく時系列データと して表す.それにより,データの連続的な性質が保存され時間遅延ニュー ラルネットワーク(TDNN:Time-Delay Neural Network )の使用が可 能となる.このネットワークは,以前に連続音声認識の分野で有効であっ た.入力された単語を連続的にニューラルネットワーク型の識別モジュー ルに送ることにより,一つ一つの文字に完全に切り分けることが不要にな る.認識モジュールの出力は集められ,フィルタリングモジュールで縮小 された参照辞書の単語と拡張 Damarau-Levenshtein 関数によってマッチ ングした文字列に変換される. 55 人の筆記者から集められた筆記制限の ない 2443 の単語(11000 文字)でトレーニングし, 2100 の参照辞書の 単語を使用したテストでは,単語の上位5位までの累積認識率が,筆記者 特定の場合で 97.9%,筆記者不特定の場合で 82.4% であった.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.18, No.8


巨大な指紋データベースに対するリアルタイム照合システム
A Real-Time Matching System for Large Fingerprint Databases

Nalini K. Ratha, Kalle Karu, Shaoyun Chen, and Anil K. Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, August 1996

マルチメディア技術が現在急速に進歩しているのにともなって、巨大な 画像データベースの検索/照会を行なう効率的な手法が強く求められている。 画像データベースは、その独自で特殊なニーズのために、他のデジタル ライブラリーと同じやり方で扱うことはできない。 画像中にみられる文脈依存性や、2次元画像データの複雑な性質が、 画像データベースに対する表現問題をさらに難しくしている。 一つの画像についての単一の不変な表現というのは、いまだ解決されて いない研究課題である。 このため、目次ベースの普遍的な検索システムを見いだすのは困難である。 形状、テクスチャ、色にもとづき画像データベースを索引付けする 現在のアプローチは限られた範囲でしかうまくいかず、さらにそれらは、 雑音と歪みが存在する場合についてのテストが不十分であった。 与えられた応用領域によって、検索性能の改良にはより強い制限が課せられる。 指紋データベースは、照会画像に雑音と歪みを含む上に、サイズが大きい という特徴をもつ。指紋画像では皮膚の弾性のために、歪みが生じるのが 一般的である。

本論文では、巨大な指紋データベースの索引付けを行なう方法を与える。 そのアプローチは、検索の上位層において、パターンクラスの ような多数の高レベル特徴と、(指紋の)スジ密度を統合する。 最下層においては、データベースの索引付けのために弾性的な 構造特徴ベースの照合を実現している。 多層的な索引付けによって、検索空間を小さくすることができた。 また、ASICに近いレベルの照合速度を得るために、検索エンジンは Splash2 -- field programmable gate array (FPGA)ベースの アレイプロセッサ上にインプリメントされている。 本手法はローカルに収集したテストデータ、および公開されている 指紋データベース・NIST-9についてテストしている。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


イメージデータのブラウジング,検索のためのテクスチャ特徴
Texture Features for Browsing and Retrieval of Image Data

B.S. Manjunath and W.Y. Ma

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, August 1996

Keywords: Digital libraries, image database, content-based image retrieval, texture analysis, Gabor wavelets.

検索のためのイメージの目次はデジタルライブラリー,マルチメディアデータ ベースのアプリケーションにとって重要な研究要素となってきている. 本論文では,画像処理aspectsと,特に大規模イメージデータのブラウジング, 検索のためのテクスチャ情報の扱いに焦点をあてている. Gabor wavelet特徴を使用したテクスチャ解析を提案し, 包括的な実験評価を行なう. Brodatzテクスチャデータベースを用いた他の複数解像度テクスチャ特徴 との比較の結果,パターン検索の正確さにおいてGabor特徴がもっとも優れていた. 最後に,本手法を空の写真のブラウジングへ応用した例を示す.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自然の状態によらない表現を使用したマルチスペクトル衛星画像の検索
Retrieving Multispectral Satellite Images Using Physics-Based Invariant Representations

Glenn Healey and Amit Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, August 1996

Keywords: Image database,image retrieval, color constancy, satellite images, color, machine vision, texture, computer vision, recognition.

マルチスペクトル衛星画像のロバストな内容検索に関するアルゴリズムと探索 の戦略について述べる。画像中の興味ある対象は、通常、地表上の自然の特徴 なので、イルミネーションや大気の状態に不変な表現と方法を使用する。

この表現とアルゴリズムはマルチスペクトル衛星画像の構造に対する自然のモ デルから得られる。いくつかの複数の表現とアルゴリズムの使用は、画像中の 自然で幾何学的な構造の多様性を解釈するために必要である。アルゴリズムは マルチスペクトルの分配、空間的構造、ラベリングを行なうために使用され る。

システムの性能は、異なるイルミネーションや大気の状態でアメリカの異なる 地域を取った大量のマルチスペクトル衛星画像で説明される。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


判別固有特徴を用いた画像検索
Using Discriminant Eigenfeatures for Image Retrieval

Daniel L. Swets and John (Juyang) Weng

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, pp. 831-836, August 1996

Keywords: Principal component analysis, discriminant analysis, eigenfeature, image retrieval, feature selection, face recognition, object recognition, content-based image retrieval.

本論文では、多次元判別分析と最適線形射影の理論を用いた、 画像トレーニング・セットからの自動特徴選択について述べる。 "well-framed" な画像(物体の大きさ、位置、向きの小さな変化 だけが許容される画像)として提示された多様な現実の物体から成る 大規模データベースからの画像をもとにしたクラス検索に対して、 このようなもっとも判別能力がある特徴の有効性を示し、 主成分分析と比較する。

(c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


主要かつ多重の移動評価による映像のコンパクトな表現
Compact Representations of Videos Through Dominant and Multiple Motion Estimation

Harpreet S. Sawhney and Serge Ayer

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, August 1996

デジタル形式のオンライン画像と映像の爆発は既にかなり進行してある。 会話型の情報探索の指数的な増加とWorld-Wide Web (WWW) の普及によって、 オンライン映像データへの快速アクセスにおける主要な制限はコスト、 獲得と保存の管理、リアルタイムの配信の不備、および内容ベースでの知的 な検索と索引作成技術の欠如である。この獲得、保存、および配信への解決 策は地平線上若しくはもうちょっと向うにある。快速配信ができても、 視覚内容に基づく索引作成のための効率的な創作と検索ツールの不足は 映像情報を現行のテキストと伝統的な表データのように広く使うことの 制限になるだろう。

視覚内容に基づく映像の非線形的な拾い読みと索引を可能にするために、 移動物体と画面中の意味のある構成要素を自動的に分離し、コンパクトな 形で表現できる創作ツールの開発は必要である。映像データが30秒毎に 1メガバイトの速度で猛烈的に来ていたとき、映像中の物体と画面を1フレームずつ 検索することはとても非効率的である。本論文では、動画情報から画面と物体 に関するコンパクト的な表現を自動的に抽出する技法を提示する。

画面を意味のある構成要素と移動物体に分離するために、映像中の画像の 移動は重要なキュー(合図)である。この移動の解析は、二つの面に於いて、 映像を視覚内容に基づいて獲得し、索引作成と拾い読みにとって有効である。 一つは、主要な2D/3D移動評価方法を用いて静止画面と移動物体を分離でき ることである。もう一つは、もし目標は固定画面を意味のある構造と物体 の組み合わせとして表現することであれば、同時多重移動評価法はより 適切であろう。いずれの場合にしても、画面の視覚に基づく要約された 表現は移動に基づく映像の合成とモザイクによって作成できる。我々は、 つぎの2種類の表現にロバスト的なアルゴリズムを提示する。1)主要移動 評価をベースにした技法の表現。この技法は映像中によく出現している 画面を探し出して、殆んど固定された背景(画面)として写し出す、そこに 独立的に動いている物体があってもなくてもよい。2)階層化表現を用いた 移動映像に対する同時多重移動の評価と表現。各方法で得られた表現の 十分な事例を本論文に収録している。

(c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


意味検索のための工学的概念空間を創造する並列計算アプローチ: イリノイ・ディジタル・ライブラリ・イニシアチブ・プロジェクト
A Parallel Computing Approach to Creating Engineering Concept Spaces for Semantic Retrieval: The Illinois Digital Library Initiative Project

Hsinchun Chen, Bruce Schatz, Tobun Ng, Joanne Martinez, Amy Kirchhoff, and Chienting Lin

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, August 1996

Keywords: Semantic retrieval, concept space, concept association, parallel computing, digital library.

イリノイでは、DLI(Digital Library Initiative)プロジェクトを 進めている。ここでは、その要素である意味検索研究から得られた予 備結果について報告する。 我々が目指したのは、すべての主要な工学ドメインに対して、ドメイ ン固有の概念(用語)とそれらの重み付き共起関係のグラフを生成す ることである。ここでは、自動類義語生成技術に変更を加えたものを 用いており、我々はこれを概念空間アプローチと呼んでいる。 大規模情報検索では語彙(の違い)が問題になるのだが、概念空間を 併合し異なる概念空間にまたがる横断パスを提供するという方法は、 この問題を緩和しうる可能性を秘めている。 以前に我々は、分子生物学のある小さなドメインにそのような技術を 試しており、良い結果を得ている。これは虫社会を取り上げたもので、 ドキュメント収集に10MB以上を要した。 大規模情報検索と現在のイリノイDLIプロジェクトの分析とに関連す るスケーラビリティー問題について述べるために、並列スーパー・コン ピュータを使用し、概念空間アプローチを用いた実験を行ったところで ある。 テスト用に収集したのは、INSPECデータベースから抽出した計算機科 学と電子工学の要約文であり、これは2GB以上である。 概念空間アプローチは、大規模なテキスト分析と統計的分析とを必要 とした。これらは自動索引付けと共起分析アルゴリズムに基づくもの であり、両者ともに生物学のドメインでテストされたものである。 初期テストには、512ノードのCM-5と16プロセッサのSGI Power Challenge が用いられ、有望な結果が得られた。 Power Challenge は包括的なコンピュータ工学の概念空間を生成する ために後から選ばれたものである。この空間は、およそ27万語と4 百万以上のリンクからなり、CPU時間で24.5時間を費やして得られた ものである。 システム評価は12の博識な主題を含んでおり、自動生成されたコンピ ュータ工学の概念空間が、人間の作るINSPECコンピュータ工学類義語 よりも意味ありげな高次概念想起を行うということが明らかとなった。 しかしながら、正確さで言えば、INSPECの方が上であった。 現在の研究は主に以下のものからなる。すなわち、他の主要工学のド メインにおける概念空間の生成であり、また堅固なグラフマッチング、 ドメインをまたがる横断アルゴリズムや概念ベース検索の開発である。 将来的には、ユーザ固有の概念ベース情報検索を支援するための 個別の概念空間を生成することも考えている。

Sz

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


内容に基づいた地図画像の検索:MARCO
MARCO: MAp Retrieval by COntent

Hanan Samet and Aya Soffer

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, August 1996

Keywords: Map storage and retrieval, document storage, digital libraries, automated indexing, retrieval by content, map interpretation, Geographic Information Systems (GIS).

地図画像の習得、保存、索引付け、検索を行なう 「MARCO」と名付けられたシステムについて説明する。

「MARCO」には階層画像(地名やマークなどがそれぞれ記入されている画像)と、 合成画像(通常の地図画像)がそれぞれラスターイメージで入力される。

階層画像については、地図の解釈システムが凡例に基づいて 物理的表現(画像/マーク)から論理的な表現(警察/距離/地名など)を得る。 ここで作成された論理的な表現は 合成画像と階層画像の両方の自動索引付けに利用される。

合成画像と論理表現の関係および階層画像と論理表現の関係を リレーショナルデータベースシステムの骨組みに 当てはめる方法についても説明する。 本システムでは、索引は文脈と空間の両方から構築される。 したがって、検索の際にも空間的記述からのみではなく、 文脈的記述からも階層画像と合成画像を引き出すことが出来る。

最後に本論文中では多くのデータを用いて 「MARCO」を精度と処理時間の両面から評価した結果を示す。

mNt

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大規模イメージデータベースの科学データ解析のための自動画像処理
Automating Image Processing for Scientific Data Analysis of a Large Image Database

Steve A. Chien and Helen B. Mortensen

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, August 1996

Keywords: Data analysis, image processing, artificial intelligence (AI), planning, automated programming.

この論文はMVP(Multimission VICAR Planner)について述べたものである。 これは、画像処理ステップに関する知識を使用したAI計画システム であり、この画像処理とは、 ジェット推進力研究所(JPL)の多目的画像処理サブシステムの 高度な科学的要求を満たすに有効なものである。

本論文では 一般的AI計画法による自動化のアプローチと、 画像処理の特定分野への応用アプローチについて 述べる。 ここでいう応用分野とは、例えば 放射分析の修正に関する惑星科学への応用や、 色の三つ組再構築や、 モザイク生成(画像処理エキスパートにとってよくある要求 であり、MVPシステムによって仕事量が大きく削減される) といったものである。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像検索のためのJPEG圧縮法の開発
Exploiting the JPEG Compression Scheme for Image Retrieval

Michael Shneier and Mohamed Abdel-Mottaleb

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 8, August, pp.849-853, 1996

本論文では,要求画像を用いて大規模データベースから画像を検索する問題に ついて述べる.開発した手法は,とくにJPEG形式で蓄積された画像データ ベースを対象とし,索引キーを作成して圧縮されたまま実行する.キーはデー タベースの個々の画像につくられ,要求画像につくられたキーとのマッチング が行なわれる.キーは画像のサイズに依存していない.類似のキーをもつ画像 どうしは似通っていると思われるが,その類似性に意味はない.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.



IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.18, No.9


Active Contour モデルにおける先験的情報の符号化
Encoding of a priori Information in Active Contour Models

Bjrn Olstad and Anders H. Torp

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996

Keywords: Active contours, grammatical encoding, string matching, dynamic programming.

Active Contourの理論により、輪郭の復元の問題はエネルギー最小化の過程と してモデル化される。 動的計画法に基づいた数値的な解は、輪郭の候補に関連したエネルギーが 局所的なエネルギーの寄与の積分に分解できることを必要とする。

本論文では、異なった局所的なエネルギーモデルとこれらの異なった モデル間での可能な変化の集合をモデル化できる文法的な構成を提案する。 文法的な符号化は物体の形に関する事前の知識や 基礎となる画像において関連する特徴を表現するのに利用される。 数値実験において、変化性が文法的な構成に埋め込まれている エネルギー最小化の過程と共に示される。 我々はストリングマッチングのためのKnuth-Morris-Prattアルゴリズム の非決定論的なバージョンと エネルギー最小化のための時間遅延離散動的計画アルゴリズム を組合せたアルゴリズム的な解を提案する。 数値実験はノイズに対する強さやオクルージョンといった、 輪郭の再現において出てくる実際的な問題を示す。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


相対アフィン構造:2次元幾何からの3次元正準モデルとその応用
Relative Affine Structure: Canonical Model for 3D From 2D Geometry and Applications

Amnon Shashua and Nassir Navab

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996

相対アフィン構造と呼ぶ、観測中心に対する不変量にもとづく 単一の非常に簡素な式によって得られる、透視画像のための アフィン幾何的な枠組を提案する。 ここから得られる主な結果によって、我々の枠組が従来の理論 --ユークリッド、投影、およびアフィン幾何--を自然かつ簡潔に 統一していることが示される。また、複眼視画像からの再構築や 配置による認識、ある種の画像コーディングへの応用のために、 新たにごくシンプルなアルゴリズムを導入する。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


領域競合:多重バンド画像分割のためのSnake,領域増大,Bayes/MDLの統合
Region Competition: Unifying Snakes, Region Growing, and Bayes/MDL for Multiband Image Segmentation

Song Chun Zhu and Alan Yuille

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996

Keywords: Image segmentation, region growing, snakes, minimum description length, Bayes statistics, uncertainty principle, color model.

本論文では,領域競合と呼ばれる新アルゴリズムに基づいた、画像分割のため の統計的・変分的な新しい方法を提案する。 本アルゴリズムは、変分原理を用いた一般化 Bayes/MDL 基準の最小化によって 導かれる。 本アルゴリズムは、極小値に収束することが保証されており、snakes/ balloonsと領域増法の性質を組み合わせている。 実際に古典的な画像のsnakes/balloonsと領域増大アルゴリズムは 我々の手法から簡単に得ることができる. 境界位置の正確さをあわせ持つ領域比較,初期状態の基準, フィルターによるエッジ検出との関係について理論的分析 を行なう. アルゴリズムをマルチバンド分割に一般化することは容易であり, グレイレベル画像,カラー画像,テクスチャ画像に適用した例を示す. 新しいカラーアルゴリズムにより強さ勾配,陰を取扱わなくてよくなる. そして物体の albedos に基づいた分割を得ることができる. ハイライト領域の検出にも役立つ.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ベイジアン・ネットワークにおける矛盾のない事前確率
On Compatible Priors for Bayesian Networks

Robert G. Cowell

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996

Keywords: Bayesian networks, Dirichlet priors, Kullback-Leibler distance, local independence, global independence.

Hyper-Dirichlet事前確率を持った離散的なランダム変数のベイジアン・ネッ トワークが与えられた場合に、構造的に異なるネットワークの条件確率に Dirichlet事前確率が割り当てられる手法が提案される。

それは割当の過程で最小化される事前確率間の距離を定義する。 直観的に2つモデルの事前確率がある意味で"近い"ように見なすならば、 その時事後確率も観測後に近くにあることを期待する。しかし、次に観測され るものは事前にはわからない。このように、事前確率間の距離を定義するため に、次に観測されうるすべての状態のKullback-leibler距離の期待値を提案す ることになる。 パラメータの大局的、局所的に独立であるという付加的な仮定に関連して、 ベイジアン・ネットワークの文献にリーズナブルな仮定として通常使われ るいくつかの定理が現れる。

この方法は"拡大と縮小"のアルゴリズムと比較され、また、ここでは扱 わない等確率の仮定による結果と比較される。簡単な例で技法を紹介する。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ジェネティック・アルゴリズムによるベイズ・ネットワークの構造学習: 制御パラメータの性能解析
Structure Learning of Bayesian Networks by Genetic Algorithms: A Performance Analysis of Control Parameters

Pedro Larranaga, Mikel Poza, Yosu Yurramendi, Roberto H. Murga, and Cindy M.H. Kuijpers

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, pp. 912-926, September 1996

Keywords: Bayesian network, genetic algorithm, structure learning, combinatorial optimization, performance analysis.

ベイズ・ネットワークの分野における構造学習への新しいアプローチを示す。 代替となる構造を探索するジェネティック・アルゴリズムの考え方を使って、 事例のデータベースに対して、最良のベイズ・ネットワーク構造を探索する 問題に取り組む。 まず、ネットワーク構造のノード間の順序付けを仮定する。 この仮定は、ジェネティック・アルゴリズムによって作られるネットワークが 適切なネットワーク構造となるために必要である。 次に、不適切な構造を適切なものに変換する「修復演算子」を用いることにより、 その順序付けの仮定を外す。 そして、実験結果とその統計的な解析を示す。 最良の結果は、局所最適化を含む、 選り抜きのジェネティック・アルゴリズムによって得られる。

(c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オプティカルフローによるカメラ移動方向評価器の性能: 解析、比較、および理論的な極限
The Performance of Camera Translation Direction Estimators From Optical Flow: Analysis, Comparison, and Theoretical Limits

A. Mark Earnshaw and Steven D. Blostein

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996

カメラの移動方向をオプティカルフローによって再現する非反復手法は既に 文献[4]で提唱された。ここでは、このアルゴリズムのバイアス(偏り) を詳しく説明し、このバイアスを排除する幾つかの方法を比較することと ともに、包括的なエラー解析を提示する。この解析は Cram-Rao lower bound (CRLB) に適当な修正を加えた。我々は、このアルゴリズムに簡単な反復 的な修正を与え、CRLBに近づくバイアスのない変換方向の評価を得ることが できる。合成と実の画像系列での様々の技法の比較に数値結果を用いている。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像のセグメンテーションにおける性能測度にのための一様測度の使用 に対するコメント
Comment on Using the Uniformity Measure for Performance Measure in Image Segmentation

W.S. Ng and C.K. Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996

Keywords: Thresholding, binarization, segmentation, evaluation, optimality measure.

本稿では、画像のセグメンテーションの性能を測る尺度(一様測度: Levine and Nazif による提案)が、基本的に大津の評価尺度と等価で あることを指摘する。

Sz

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き記号のオンライン認識
On-Line Recognition of Handwritten Symbols

Gordon Wilfong, Frank Sinden, and Laurence Ruedisueli

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996

Keywords: Pattern recognition, handwriting, on-line, symbol recognition, template matching.

筆記者特定のオンライン手書き英字認識システムについて述べる。 記号が連続して書かれている場合、システムでは 文字の大きさ、回転、位置に無関係に記号を認識する必要がある。

mNt

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


空間トポロジー距離尺度に基づく手書き文字認識
Handprinted Character Recognition Based on Spatial Topology Distance Measurement

Cheng-Yuan Liou and Hsin-Chang Yang

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996

Keywords: Handprinted character recognition, spatial topology distance, self-organizing map, neural networks, elastic matching

本論文では、太く書かれた手書き文字の認識を可能とする自己制御マッチング によるアプローチについて述べる。 本アプローチでは、未知の手書き文字を該当するオブジェクトへと徐々に 変形させていく。 自己制御マッチングに使用される 抽出すべき文字の特徴とは、 中心の軌跡であり、向きであり、そしてパターンの黒画素範囲にフィットする 楕円の主軸である。 実験により本方法の有効性が示された。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


発見的な探索手法による文書画像の復号化
Document Image Decoding by Heuristic Search

Anthony C. Kam and Gary E. Kopec

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September, pp.945-950, 1996

本稿では,文書画像の復号化を発見的な探索問題とみなすことで,その計算コ ストを削減する手法について述べる.本手法の核は変形した動的計画法(DP :dynamic programming )のアルゴリズムであって,反復完全路アルゴリズム (ICP: iterated complete path )と呼ぶ.それは,分離可能な信号源モ デルを用いている.発見的な関数の組はICPにより形式化されたテキストを 復号化するように表されている.ICPと提案された発見的手法を用いて,単 純なテキストの列と電話のイエローページを復号化するときに,動的計画法よ りも3〜25%の速度向上がみられた.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


モルフォロジカルな骨格とモルフォロジカルな形の分解の比較
Comparison Between the Morphological Skeleton and Morphological Shape Decomposition

Joseph M. Reinhardt and William E. Higgins

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 9, September 1996

Keywords: Mathematical morphology, shape representation, morphological skeleton, morphological shape decomposition, image analysis, computer vision, shape analysis.

モルフォロジカルな骨格とモルフォロジカルな形の分解(morphological shape decomposition : MSD)はモルフォロジカルな形の表現の一般的な 2つの方法である。 どちらの方法も物体を部分の幾何学的な組合せとして表現する。 各部分は相似な特定の構成要素によって広げられた点の軌跡で与えられる 本報告では2つの方法の理論的な比較を行なう。 理論的な結果といくつかの表現のコストの尺度を組み合わせることによって、 我々は2つの方法の効果の具体的な比較を行なった。 結果は複雑な物体(例えばモルフォロジカルな骨格の表現において 相似の大きさの全範囲を必要とするような物体)に対して 提案した4つのコストの尺度のうち、3つに関してモルフォロジカルな 骨格よりもMSDの方が効果的に表現できることを示している。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.18, No.10


2次元Gaborウェーブレットを用いた画像表現
Image Representation Using 2D Gabor Wavelets

Tai Sing Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996

1次元ウェーブレットに対するDaubechiesによるフレーム基準を 2次元に拡張し、2次元ガボアウェーブレットの特殊な場合について フレーム限界を計算する。

哺乳動物の視覚を司る脳皮質に対して、神経生理学が明らかにした最近の 成果によれば、線形応答する皮質ニューロン(単純セルと呼ばれる)の 主要な集合が示すフィルタ応答の形状は、一連の自己相似2次元ガボア ウェーブレット族として最もよくモデル化される。 このため2次元ガボア画像表現に対する完全性の基準は、多くのコン ピュータビジョンの応用、また生物学的ビジョンのモデリングにおいて 役割を増していることから、重要である。

そこで連続2次元ガボアウェーブレットが任意の画像の完全表現を 与えるための条件を導き、ウェーブレットが直交基底となっているもの として和をとれば安定な再構築が得られるような、自己相似ウェーブ レットのパラメータ付けを見い出す。 きつく量子化された2次元ガボア係数を用いて画像を再構築すること によって示すように、 "かたいフレーム"の近似が低解像度のニューロ応答に高解像度の画像を 表現させる冗長性を生じている。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所変形と可変次数のパラメトリックモデルを用いた 分割された画像におけるプティカルフローの推定
Estimating Optical Flow in Segmented Images Using Variable-Order Parametric Models With Local Deformations

Michael J. Black and Allan D. Jepson

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996

Keywords: Optical flow, segmentation, robust regression, parameterized flow models, local deformation.

本論文では,局所的に変形した平面領域の動きに基づいた オプティカルフローの評価のための新しいモデルについて述べる. 本方法では組織のための明るさの情報を用い,シーン中の平面領域を 仮定するための断片的滑らかさの明るさの分割された領域を用いた 動きの解釈を強制する. パラメトリックフローモデルは2つのプロセスで領域中で推定される. 最初のプロセスでは粗いフィットを計算し,次のプロセスで領域(2, 6,または8つのパラメータ)の動きの適当なパラメータ化を推定する. 最初のフィットは、領域に基づいた標準的な回帰法の一般化を 用いてリファインされる. 平面性の仮定は覆されがちであるので,粗いパラメトリックモデル+ 局所変形を用いたモデルの形である物理的手法と同じような,平面仮定 からの局所的変形を許すことにした. パラメトリック+変形の本モデルは,正則化手法の適合した本質を保持 している限り,パラメトリック手法の強い制約を利用する. 様々な画像に対する実験の結果,パラメトリック+変形モデルは, 明るさ分割の合併による動きの境界の局所化が正確である限り, 正確なフロー推定を行なうことが分かった.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2次特徴検出のスケールスペース特性
Scale-Space Properties of Quadratic Feature Detectors

Paul Kube and Pietro Perona

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996

Keywords: Feature detection, edge detection, scale space, nonlinear filtering, energy filters, quadratic filters, causality.

フィルタリング段階で2次の非線形性を使用した特徴検出は線形特徴に比べ いくつかの利点があることが知られている。ここではそれらのスケールスペー ス特性を考える。特に、線形の検出のように、2次特徴の検出が"因果 関係の特性"でスケールの選択を許すかどうかを調査した。この"因果関係の特 性"はスケールを粗くする時に決して特徴を生成しないということを保証する ものである。

スケール関数とのコンボリューションとして実現されたスケールの選択を使用 する、実際にはほとんど共通のデザイン、すなわち、2つの成分を持つ1次元 の検出について詳しく説明する。興味ある2つの特別な場合、ヒルベルト変換 によってと最初の空間的な導関数よって関係付けられた成分フィルターの組を 考える。リーズナブルな仮定のもとで、ヒルベルト変換による2次の検出は 因果関係の特性を持てないことを示す。導関数の場合には、因果関係にとって 必要十分であるガウシアン関数の分数の導関数に関連するスケール関数のいく つかを説明する。加えて、実際にこれらの特性の効果を示す実験について報告 する。このように、2次特徴検出の少なくとも1つのクラスが線形のフィル タリングに基づいたより良く知られた検出と同じく好ましいスケール特性を持 つことを示す。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ワイヤーフレームで書かれた物体の投影図における面の同定
Identification of Faces in a 2D Line Drawing Projection of a Wireframe Object

Moshe Shpitalni and Hod Lipson

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October, pp.1000-1012, 1996

二次元の線で表された投影図から三次元物体を再構成するために,重要な鍵と なるのは面の同定である.実際の三次元物体の面に対応した,二次元の投影図 上での周を表す線分の同定は,投影された物体がワイヤーフレームで表されて いると複雑になる.この表現は,機械部品の概要設計の段階で作られる図面で よく使われる.非多様体的物体(nonmanifold object)のとき,状況はさらに複雑に なる.本論文では,表面同定の基礎となる原理を論じ,表面同定が可能なアル ゴリズムを示す.面〜線分〜頂点の関係は非多様体にも適用可能である.また, 実際に用いられている図面からの例をあげる.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


決定理論的な協調的センサープランニング
Decision-Theoretic Cooperative Sensor Planning

Diane J. Cook, Piotr Gmytrasiewicz, and Lawrence B. Holder

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996

Keywords: Sensor planning, decision theory, multiagent planning, Unmanned Ground Vehicle, active vision.

本論文では軍事的な任務を遂行する複数の自律的な乗物間の 協調的センサープランニングの決定理論的な手法について述べる。 この自律的な乗物への応用にとって、知的な協調とは任務の間中 乗物の位置やカメラのパン/チルト角度の最適な選択がなされなければならない。 これらは乗物のステルス性を保ちながら センサーから得られる情報量が最大になるように 決定しなければならない。 任務は複数の乗物で行なわれるので、協調は乗物間の負荷のバランスを取り、 また得られる情報が増加するようになされなければならない。

本論文では協調的なセンサープランニングの研究の理論的な基礎を提案し、 これらの手法のARPAの無人走行車への応用について述べる。

Y.A.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所自己相関と多重スケール手法を用いた顔認識システム
Face Recognition System Using Local Autocorrelations and Multiscale Integration

Francois Goudail, Eberhard Lange, Takashi Iwamoto, Kazuo Kyuma, and Nobuyuki Otsu

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996

Keywords: Classification, face recognition, autocorrelation, object recognition, shift invariant feature extraction, multiresolution image analysis.

本論文では、25の局所自己相関係数にもとづく顔認識技術の性能を 調べる。 評価用の学習セット、およびテストセットとして、116名の正面向きの 顔・11600画像からなる大規模なデータベースを用いる。 自己相関係数は計算量が多くなく、平行移動に関して不変という性質を 持ち、表情の変化に対してもかなりロバストである。

我々は多数の既知顔を認識しつつ、それ以外の、パターン空間上で非常に 近接している未知顔をリジェクトするという困難な問題に取り組んだ。 多重解像度システムによって95%の認識率を達成すると同時に、未知顔の 誤認識率も1.5%だけに抑えた。それを1秒間に約1人の速度で実行する ことができる。 未知顔のリジェクトをしない場合は、最高で99.9%の認識率を得た。 この良好な性能から、局所自己相関係数が非常に有効な情報を含む ことが示された。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


空間スペクトル特徴からの Looming Motion 要素の分析
Analyzing Looming Motion Components From Their Spatiotemporal Spectral Signature

Phillipe Burlina and Rama Chellappa

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996

Keywords: Motion analysis, frequency domain analysis, time-to-collision, Mellin transforms, spectral structure.

本論文は,動的な画像のシーケンスの分析と画像の動き特徴付け への空間変換法の適用について述べる. 拡がりを持つ要素(looming カメラ要素に起因する)を含む 画像の動きは空間的 Mellin 変換(MT)領域において分析され、 スペクトルが二つの部分に分けられる。 2つの部分とは、静止画の空間的MTに対応する構造的な項と 衝突回避時間(a motion support)に依存する運動的な項である。

必須の画像の明るさ量からの画像の動きの回復,および 空間的 MT 分析を用いた衝突回避時間の計算のために 先の特性について応用の可能性を探った.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


遠近法における色
Color in Perspective

G.D. Finlayson

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996

Keywords: Color, color constancy, physics-based vision.

可能性のある表面反射や発光の状態に対する簡単な制約が、Forsythの色不変 の定理に基づいた新しいアルゴリズムにおいて開発された。

Forsythの方法は規範的な発光のもとでの表面色のすべては可能な色の最大の ガミュートの範囲内におさまるという制約を保証する。残念なことにこの方法 は、照明が均一である、表面は平面である、反射がないという制限された世界 でのみ有効である。

これらの制限をなくすためにForsythの方法を(本質的には色度の空間で)遠 近的な射影のもとでの色に適応するように変更した。この方法はForsythの方 法よりも簡単(計算量が減る)であり、より重要なことは照明、表面、反射に 対する制限を緩めることができる。また、この方法は表面色におけるガミュー トの制限と同じような発光に対する最大のガミュートの制限をも含むように拡 張されている。実際の画像でのテストはこのアルゴリズムが色の不変性に対し て良好であることを示している。

M.T.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


HMM によるオンライン手書き認識
HMM Based On-Line Handwriting Recognition

Jianying Hu, Michael K. Brown, and William Turin

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996

Keywords: On-line handwriting recognition, hidden Markov models, subcharacter models, evolutional grammar, invariant features, segmental features.

隠れマルコフモデル(HMM)による手書き認識は今ではよく用いられているが、手書 き認識のために HMM を複雑な確率的言語モデルに組み入れることはまだ始まったば かりである。我々は、より複雑な手書き認識システムの構築のために、音声認識分 野における開発成果を活用した。手書きモデルのパターン要素は HMM によってモデ ル化される部分文字のストローク型である。これらの HMM は文字モデルを形成する ために連結され、さらに確率的言語モデルに組み込まれる。よい良い言語のモデル 化に加えて、新しい手書き認識の様々な種類の特徴を導入する。これらの特徴のい くつかは不変性を有し、また、あるものは入力パターンのかなり大きい領域を覆う ような部分的な特徴である。語彙が32単語から成る、18筆者による3,823個の制約 のない手書き単語のサンプルにおいて、94.5%の筆者独立の認識率を達成した。

HN

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グレースケール文字の切り出しと認識の新しい方法論
A New Methodology for Gray-Scale Character Segmentation and Recognition AHTHOR: Seong-Whan Lee, Dong-June Lee, and Hee-Seon Park

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996

Keywords: Character segmentation and recognition, topographic feature, gray-scale character recognition, multistage graph search, recognition-based segmentation.

一般的に言って、グレースケール画像を二値化するプロセスに おいて、有用な情報が失われることが数多くある。ここで有用 な情報というのは、接触またはオーバラップ文字を切り出すう えで有用な情報のことである。 グレースケールの画像を解析すると、文字境界において、細部の地形的 ともいえる特徴と濃度変化とを観測することができる。 グレースケール画像から得られたこのような手がかりは、有効な文字 切り出しと認識に役に立てると信じている。

本論文では、グレースケール画像のこのような性質を最大限に利用する 新しい文字切り出しと認識の方法論を提案する。 この方法論では、文字を切り出す領域はグレースケール画像から抽出し た投影的輪郭と地形的特徴によって決定される。 そして、多段階グラフ探索アルゴリズムを用いて、個々の文字切り出し領域 の非線形的な文字切り出しパスを探し出す。 最後に、この非線形的な文字切り出しパスと認識結果を確定するため、 認識に基づいた切り出し方法を採用する。 様々な印刷されたドキュメントにおける実験を通して、提案された方法論 は、接触とオーバラップの文字の切り出しと認識に非常に有効であること が確信された。

LXP

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


直線の傾きについて:phony推定
The Slope of a Straight Line: A Phony Estimator

Jan Strackee

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 10, October 1996

この小論では、Werman と Geyzel によって提案された直線の傾き推定法 について論ずる。 この推定法がまがいものであることが、周波数分布を計算することにより、 示される。この推定法は、一次モーメントも二次モーメントも持たないの である。 したがって、それを応用すると、まったく不規則な結果となろう。

Sz

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.18, No.11


離散ユークリッド距離変換図からの骨格化
On the Generation of Skeletons from Discrete Euclidean Distance Maps

Yaorong Ge and J. Michael Fitzpatrick

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996

Keywords: Euclidean, skeleton, shape analysis, medial axis transform, axis of symmetry, distance transform, Euclidean distance transform.

形状解析に用いる表現方法として、骨格表現は重要なものの1つである。 一般的には、骨格化は次の3つのステップで行なわれる。 1)まず、(図の端からの)距離変換図を作成し、 2)距離変換図から(図の内部に存在する)最大円盤を検出し、 3)最後に最大円盤の中心(CMDs)をつなぎ合わせて骨格表現を得る。

距離を近似するのに用いるアルゴリズムは豊富で、理論的にもしっかり 構築されている。 しかしながら、結果として得られる骨格は精度が悪く、回転に対する頑 強性が低い。 本論文では、正確なユークリッド距離に基づいて、上記手法により骨格 を抽出する手法について述べる。 始めに、従来提案されているアルゴリズムの中には、 ユークリット距離の元では、離散最大円盤の組みを正確に求めるアルゴ リズムがないことを示す。

次に、CMDs から骨格を抽出するのに、 通常良く用いられる細線化と最速上昇法の2つのアプローチについて実 験を行なった結果を示す。 実験の結果、細線化のアプローチではユークリッド距離図に対しては適 切に働かないことが指摘できた。 一方、最速上昇法では芯線が元の線の真中心に位置する骨格を生成でき、 結果として得られた骨格は、骨格として好ましい特性を全て備えている。 つまり、得られた骨格は、原図形の連結性を保持し、 骨格が原図形の中心を通過しており、回転に対する頑強性が強く、 正確な再構成が可能である。 本論文で提案するアルゴリズムの有効性は多くの実例で示されている。

mNt

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


周波数ベースの非硬直な動きの解析:4次元医療画像への適用
Frequency-Based Nonrigid Motion Analysis: Application to Four Dimensional Medical Images

Chahab Nastar and Nicholas Ayache

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996

Keywords: Medical image analysis, nonrigid motion, deformable models, modal analysis, Fourier analysis, compression, dynamic data, four-dimensional images, cardiac imagery, automatic diagnosis.

3次元画像の時系列データ(4次元データ)における非剛体的な動きの 解析方法について示す. この方法では,変形する物体の輪郭の非硬直な動きを, 物理的に変形可能な表面の制約から直接推定する. 変形を表すパラメータの数を減らすために,表面の空間的 滑らかさを与えるモデル解析を行なう. 変形の概略を表すスペクトルは,変形の比較に効果的に使える. 主変形スペクトルの時系列データに対するフーリエ解析によって,データの テンポラルなスムージングがなされる. よって,複雑な非硬直的動きはわずかなパラメータ(主スペクトルと 主フーリエ倍スペクトル)で表現できる. 従って,4Dデータを非常に簡潔な方法で解析することができる. 本方式の有効性とロバスト性は,様々な医療画像データによって 示される. 本方法は心臓疾患の自動診断や動画の圧縮などに適用可能である.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自律走行エージェントにおけるマップの動的クラスタリング
Dynamic Clustering of Maps in Autonomous Agents

Dario Maio, Davide Maltoni, and Stefano Rizzi

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November, pp.1080-1091, 1996

ナビゲーションのための空間的な知識の組織化と利用は,自動車の自律走行シ ステムの分野で重要な問題である. 特に,環境マップを連結クラスタに分割す ることによって,重要な位相的特徴の獲得ができ,分割統治(divide- and-conquer)法による行路設定の分解が可能となる. 発見にもとづくクラスタリングとは,エージェントが環境内を動くのに合わせ て,探査によって学習されているマップのなかで、対応するクラスターを同定 するための処理である.これは,利用可能な知識の有効なクラスタリングを, それぞれの探査ステップにおいて生み出すものである。 本論文では,クラスタリングの適格の度合いを表す測度を定義し, それを最大にする二つの発見的なアルゴリズムを提案する. いずれのアルゴリズムも,位相的・測度的基準にしたがって動的にクラス ターを決定する. 最初のものは,クラスターに属する点の散乱度を局所的に最 小化することを目的とし,一つ一つの探索ステップで存在するクラスターを部 分的に再配置する. 二番目のものは,全体的な密度マップにしたがってクラス ターの位置と規模を評価する. そして,二つのアルゴリズムの,最適性,効率, ロバスト性,安定性の点での比較を示す.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


拡張マッチングを用いた最適傾斜エッジ探索
Optimal Ramp Edge Detection Using Expansion Matching

Zhiqian Wang, K. Raghunath Rao, and Jezekiel Ben-Arie

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996

Keywords: Canny edge detector, edge detection, optimal filters; ramp edges, step edges, Expansion Matching (EXM), Discriminative Signal-to-Noise Ratio (DSNR).

実際の画像において理想的な階段状のエッジは、 画像処理システムで一般的に用いられるローパスフィルターのために 傾斜状のエッジに変換されてしまう。 本論文では最近開発された最適な傾斜エッジ探索のための拡張マッチング法 について議論する。 拡張マッチング法が区別的SN比(Discriminative Signal-to-Noise Ratio :DSNR)と呼ぶ新しいマッチング基準を最適化し、 またノイズ、大きなオクルージョン、重なりなどの条件の下で ロバストにテンプレートを認識できることを示す。 我々の傾斜エッジ探索法がCannyの基準をDSNRに換算して得られる 傾斜エッジ探索法に比べて良い性能を有すること、 また様々なノイズレベルや傾きに対して抽出するのが相対的に容易で あることを示す。

Y.A.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


アフィン反復による多重透視画からのユークリッド的形状と運動(の構成)
Euclidean Shape and Motion from Multiple Perspective Views by Affine Iterations

Stephane Christy and Radu Horaud

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996

Keywords: Perspective, weak perspective, paraperspective, Euclidean and affine reconstruction.

本論文では、透視カメラモデルに対するEuclidean再構成問題を、 弱い透視、または平行視カメラモデルに対するEuclidean再構成問題 を次々と実行することによって解決する方法について述べる。 較正されたカメラによる画像系列から形状と運動を求める他の方法に 比べて、本方法は少ない反復回数で収束し、計算効率が良く、 符号(反転)のあいまいさを解消している。 まず方法の詳細を説明し、その収束性を解析して、人工データと実データ の両方を用いて実験を行なう。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ズームレンズカメラの校正に関する考察
Some Aspects of Zoom Lens Camera Calibration

Mengxiang Li and Jean-Marc Lavest

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996

Keywords: Camera calibration, zoom lens calibration, lens distortion, active vision.

ズームレンズカメラの調整は重要な問題ではあるが, 少なくとも2つの理由で難しいものとなっている. 最初の問題は,このようなカメラの固有なパラメータは 時間と共に変化し,オンラインで調整するのは難しいことにある. 2番目の問題は, シングルレンズシステムのためのピンホールモデルは ズームレンズシステムには直接適用できないことである. 本論文ではこの問題に対する ズーミング,モデル化,レンズの歪み,焦点の長さ の調整における重要な点の決定など,幾つかの考察を述べる. コンピュータ制御によるズーム,焦点,口径の調整 に関する実験結果を示す.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多数の画素対の相互作用によるテクスチャーのモデリング
Texture Modeling by Multiple Pairwise Pixel Interactions

G.L. Gimel'farb

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996

Keywords: Texture, Markov/Gibbs random field, pairwise interaction, maximum likelihood estimate.

Gibbsの確率分布(GPD)に基づくマルコフ・ランダム・フィールドのモデルを 提案する.これは,グレースケル画像のうち、確率過程が空間的に均一である テクスチャー,と呼ばれる特殊なクラスを記述するものである. このモデルが考慮するのは、複数の画素のグレーレベル間の相互作用のみであ る.この相互作用は、複数のショートレンジとロングレンジの対単位のもので ある. 効果的な学習の枠組が導入され, GPDにおけるポテンシャルの最尤推定を使って,相互作用の構造と強さを, 望まれるパラメータとして復元する. この枠組は,分析的に得られる推定の初期近似と,確率過程的な近 似によるその後の精緻化とに基づいている. 自然界のテクスチャーをモデリングする実験において、提案したモデルの 有効性が示された.

M.T.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


対話的なモデルベースの車両追跡
Interactive Model-Based Vehicle Tracking

Warren F. Gardner and Daryl T. Lawton

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996

Keywords: Vehicle tracking, model-based, interactive, local translation.

本論文では、車両追跡のための対話的なモデルベースのビジョンシステムについて 述べる。人間は対象モデルの形式である程度の量の情報を指定する。そのモデルに より、動いている車両を含むシーンの自律的解釈のためのコンテクストを確立され る。手で持った非校正カメラについて、いくつかの画像系列からの結果を示す。

HN

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


数学形態論を用いたスケール空間
Scale-Space Using Mathematical Morphology

Kyeong-Ryeol Park and Chung-Nim Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996

Keywords: Mathematical morphology, scale-space, causal property, generalized zero-crossing, fingerprints, alternating sequential filter.

本論文では、モルフォロジカル・フィルタリング(morphological filterings) に基づいた一次元グレースケール信号のスケール空間が因果律を満足する (スケールが大きくなっても新しい特徴点を作らない)ことを証明する。 このため、我々は、一定の特異性質を持つ信号をも許容するように、 ゼロ・クロシングの標準的な定義を改良し、これを用いて特徴点を 定義する。 このゼロ・クロシングの新定義は、二階の導関数を有する関数については、 標準定義と同等である。 特に、ガウシアン・カーネルGに基づいたスケール空間は、この概念を 必要としない。というのは、フィルタされた信号 G * f は常に無限 微分可能であるからである。 このゼロ・クロシングの一般化された概念を用いて、openingに 基づいたモルフォロジカル・フィルタリングが因果律を満足すること を証明する(二重性により、closingの場合も同じである)。 この前の著作中に見つかった誤りがこの論文の中で修正された。 我々が得た因果律の結果は、より一般的な二次元グレースケール 画像には応用できない。 副産物として得られた可変逐次フィルタの因果律結果も この論文に含まれている。

LXP

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


フォーム・ドロップアウトのための一般的システム
A Generic System for Form Dropout

Bin Yu and Anil K. Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996

Keywords: Form processing, learning form structure, document image analysis, segmentation, character reconstruction, block adjacency graph.

最近は、文字認識も進歩して賢くなったので、文書画像解析の分野で 多くの挑戦的な課題に取り組むことができるようになりつつある。 その一つに、知的なフォーム解析がある。 フォームに書き込まれた文字や記号は、フォーム枠と接触または交差 する場合がある。本稿では、そのようなケースのフォーム・ドロップ アウトのための一般的システムについて述べる。 我々が提案するのは、それら接触・交差文字を、位置未定のフォーム枠 から分離する方法である。 文字ストロークのなかには、フォーム枠と接触・交差するものがあるわけ であるから、次の三つの問題に触れざるを得ない。

1) フォーム枠位置の特定

2) 文字とフォーム枠との分離

3) 分離によりもたらされるストロークの欠落の再構成

1)のフォーム枠位置の特定は、長い直線を検出することにより自動的にな される。ここで、直線の検出は、ブロック隣接グラフに基づいている。 2)のフォーム枠分離と、3)の欠落文字の再構成とは、このグラフ上で実現 される。 提案されるシステムには、フォーム構造の学習とフォーム・ドロップアウト も含まれる。 まず始めに、未記入のフォームから、構造ベースのフォーム・テンプレート を自動的に生成する。未記入のフォームには、フォーム枠と、あらかじめ印 刷されているデータ領域と、スキュー角とが含まれている。 このフォーム・テンプレートを用いることにより、記入された手書き文字、 及び活字文字のいずれをも抽出することができる。 実験結果として、3種類の異なるフォームについてのものを取り上げ、 システムの性能を示す。 さらに言えば、提案方法は、スキャン中にもたらされるノイズやスキューに 対して頑健である。

Sz

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


記号的分類器の学習のための遺伝的探索の力の探索
Exploring the Power of Genetic Search in Learning Symbolic Classifiers

Filippo Neri and Lorenza Saitta

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 11, November 1996

Keywords: Genetic algorithms, distributed genetic algorithms, classification rules, machine learning, disjunctive concept learning, universal suffrage selection, mushroom dataset, splice junctions dataset, empirical comparison.

本論文では、建設的な方法で以下のことを示す。すなわち、 学習システムに基づく遺伝的アルゴリズムを用いることは、 少なくとも伝統的なアプローチ、つまり記号論的あるいは コネクショニスト的アプローチと同じくらいに効果的であ るということである。 その目的のために、REGAL*というシステムについて簡潔に述べ、 機械学習の二つの古典的なベンチマークへの応用について、 その結果を文献で公になっている最良のものの結果と比較する ことで論ずる。

Sz

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.18, No.12


変形可能な円筒状物体の複数ビューを対象とする弾性モデル駆動型解析
Elastic-Model Driven Analysis of Several Views of a Deformable Cylindrical Object

Yasuyo Kita

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December 1996

Keywords: Deformable objects, elastic models, physics-based modeling, multiple view analysis, nonrigid motion, contour extraction, medical image processing, stomach X-ray images.

本論文では,複数視点画像における物体の対応を探索することによって, 該画像から変形物体の領域を抽出する方法を提案する. 本方法は胃のX線画像を解析するために開発された. 胃の(生理的ではなく)物理的な変形とカメラアングルの変動によって, 胃の形状は画像上ではかなり違って現れる. このような画像を正しく解析するために,弾性胃モデルを使用する. 初めに,一つの画像における胃の形状から弾性胃モデルを作る. 各撮影条件を考慮して,各画像における胃の変形を当該弾性モデルに よってシュミレートする. 各画像におけるカメラアングルから弾性モデルを投射することで得られる 予測される輪郭を参照することで,胃の輪郭形状がノイズィな画像からロバスト に求められる. 各画像から予測される輪郭が弾性モデルに対応することで, 画像中の胃の各パートの位置が同時に求まる. いくつかの胃のX線画像についての実験結果を示し,考察を述べる.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


分水界曲線の測地線における突起部と階層的分割
Geodesic Saliency of Watershed Contours and Hierarchical Segmentation

Laurent Najman and Michel Schmitt

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December, pp.1163-1173, 1996

分水界(watershed)は数学的モルフォロジーの分野で開発された,最新の領 域分割ツールの一つである.その過分割を防ぐために,測地線の再構成に基い た,最小値の運動の考え方を提示する.本論文では,等高線にその運動の考え 方を拡張する.この考え方は,突起部の測度のように振舞う.最小値の運動に 反して,我々の概念では画像の対応する物体の大きさと形を反映している.こ の表現は平面の区分化,すなわち分割によって表されるため,より自然なもの である.それから階層的な分割過程が導かれるが,それは画像のコンパクトな 記述を与え,すべての分割を含むため,運動の考え方により,単純な閾値処理 で得ることが可能である.最後に,輪郭線の運動に加え,測地線の再構成を計 算するのに効率的なアルゴリズムを示す.


透視投影における3次元の対応点の剛体性の照合
Rigidity Checking of 3D Point Correspondences Under Perspective Projection

Daniel P. McReynolds and David G. Lowe

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December 1996

Keywords: Rigidity checking, point correspondences, image matching, structure-from-motion, nonlinear parameter estimation, perspective projection.

透視投影における2次元の視野の組から得られる3次元の点の 対応の潜在的な剛体性を高速に検証するアルゴリズムについて述べる。 本アルゴリズムの出力は「2つの視野から得られたこれらの対応点は 厳密な配置の投影か?」という質問に対する単純なYesまたはNoという 答えである。 将来的な応用として、1つの視野からの3次元物体の認識や 大きく離れた視野間のステレオや動きの(検出の)ための対応マッチング などがある。 厳密な照合問題は動きからの構造問題とは異なる。 なぜなら多くの場合、2つの視野からは曖昧さや悪条件のために 動きからの構造を計算することは不可能であるが、 一方厳密な問題に対して正確なYes/Noという答えを与えることは可能である。 厳密な照合はマッチングの条件として3次元の復元方程式を用い、 点の対応を検証する。 提案するアルゴリズムを使って本手法の部類に属する他の方法を 改良することができる。 なぜなら本手法は、透視投影においてたった6の対応点で良い、 大きく離れた視野から(得られる点)の対応を扱う、 対応の相違を最大限に利用する、 Kontsevichによって3次元の復元に対して線形なアルゴリズムで 統合されている、からである。 様々な実画像に対する実験結果を示す。 本アルゴリズムのインプリメントについても完全に公開する。

Y.A.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Real-Time Focus Range Sensor リアルタイム焦点距離センサー

Shree K. Nayar, Masahiro Watanabe, and Minori Noguchi

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December 1996

Keywords: Depth from defocus, constant magnification defocusing, active illumination pattern, optical transfer function, image sensing, tuned focus operator, depth estimation, real-time range sensor.

動画の構造はリアルタイム距離センサーを用いて復元することができるが、 焦点補正から得られる奥行きを用いれば、高速で高密度の距離推定を 効果的に行なうことができる。 しかし、高精度の奥行き推定には、テクスチャのない表面の復元や精確な ぼけの推定、焦点補正によって起こる倍率の変動を含む、さまざまな問題を 理論的・実用的に解決することが必要となる。 テクスチャ表面・テクスチャのない表面ともに、画像を得るのに 使われる同じオプティカルパスにより投影される照度パターンを 用いて復元される。 照度パターンは、求めた奥行きにおける精度と空間解像度が最大に なるように最適化される。 2つの画像における相対的なぼけは、帯域の狭い線形オペレータを用いて 求められる。そのオペレータは焦点補正システムからの奥行き に関する、光学上、センサー上、計算上のあらゆる要素を考慮して 設計されている。 焦点補正に対して不変な倍率は、撮像レンズに窓を付加する ことにより実現した。 焦点距離センサーのプロトタイプを開発したが、それは 1フィート立方の領域で動作し、30Hz で 512x480までの深さ 推定を行ない、平均2乗誤差は0.2%である。 いくつかの実験結果により、センサーの性能を示す。

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Quadtreeスプラインを用いた動きの推定
Motion Estimation with Quadtree Splines

Richard Szeliski and Heung-Yeung Shum

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December 1996

Keywords: Motion analysis, image registration, optical flow, splines, quadtrees, local parametric motion models, multiresolution analysis, image pyramids, hierarchical basis functions, motion segmentation.

本論文では新しい多解像度表現, quadtree スプラインに基づいた, 動きの推定アルゴリズムを提案する. この表現では,動きのフィールドは様々なサイズの小領域画像を 滑らかに連結したものの集まりとして表わす. 小領域画像のサイズは基礎となる動きの複雑さに応じて自動的に 調整される. 小領域画像のトポロジーは quadtree データ構造によって決定され, 分割,併合の両手法はこの空間的細分割の推定のために開発される. quadtree スプラインはもう一つの新しい表現, 適応的で階層的な基本スプラインを用いて実装され, 階層的基本前提条件を与えることによるスピードアップ を伴う,適応的に大きさを決定された相互窓の利点 を併せ持つ. 標準的な動きのシーケンスに対して実験結果を示す.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


エッジと領域検出の統合による多重スケールの画像分割分割のための変換
A Transform for Multiscale Image Segmentation by Integrated Edge and Region Detection

Narendra Ahuja

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December 1996

Keywords: Image segmentation, representation, scale-space, edge detection, region detection, perceptual structure, pyramids, medial axis, nonlinear image analysis, texture.

本論文はすべての幾何学的および光度スケールで画像の部分領域を抽出する新 しい変換方法を述べる。コンボリューションやマッチングのような線形なアプ ローチは部分領域の形状の先験的なモデルが必要であるという根本的な欠点が あることをまず論じる。

提案された変換は、統計力学や量子力学と同じように、画素間の相互作用から ボトムアップ的に構造的なマージを行なうことによる制限を避ける。この変換 は、スカラー的で局所的な線形処理というよりはむしろ結果のベクトル的な統 合による画素対のグローバルな計算を意味する。引力の場が同じ部分領域に属 する画素が引き合うように画像上で計算され、部分領域はコンバージェンス・ フローによって特徴付けられる。

すべての異なる幾何学的および光度スケールでマルチスケールのセグメンテー ションや元々の劣化していない構造の抽出が可能であるという変換処理の性質 が画像に表れるということが示される。これはマルチスケールの構造が画像信 号の消滅というスムーズな構造として観測される従来の方法と対比される。 スケールは引力の計算の統合パラメータであり、画像に関連付けられるスケー ルパラメータの数と値は自動的に推定される。部分領域はすべて事前にわから ない自動的なセグメンテーション・ツリーの構築によって得られるスケールで 検出され、すべての画素はそれが所属するすべての部分領域の記述が付加され る。変換の分析的な性質のいくつかは部分的にコンスタントな画像に対して表 現されるが、結果がより一般的な画像、例えばノイズや陰影などが含まれてい る画像に対しても保持されることが示される。

このように提案された方法はマルチスケールで統合されたエッジや部分領域の 検出や低レベルの画像のセグメンテーションの問題に対する解決方法として考 えられる。合成された画像と実際の画像に対する実験結果でこの変換方法の性 質とセグメンテーションの性能を示す。

M.T.

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


内挿された画像を用いた実時間の特定タスクのジェスチャ解析
Task-Specific Gesture Analysis in Real-Time Using Interpolated Views

Trevor J. Darrell, Irfan A. Essa, and Alex P. Pentland

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 2, December 1996

Keywords: Gesture recognition, real-time image processing, expression analysis, view-based representation, spatio-temporal gestures.

空間と時間において定義される view モデルの集合への類似性スコアのベクトルと してパターンが表現される appearance-based approach を使って、手や顔のジェス チャをモデル化する。これらの view モデルは、教師無しのクラスタリング手法を 使って例から学習される。そして、認識や制御のタスクに適切な、タスクに依存し た座標系において view スコアを内挿するために、教師付き学習のパラダイムを用 いる。この解析を特定のコンテクストのジェスチャの内挿と認識に適用し、これら のタスクを行う実時間システムを提示する。

HN

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オプティカルフロー計算の多重制約
Multiple Constraints to Compute Optical Flow

Massimo Tistarelli

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December 1996

Keywords: Optical flow, velocity field, differential constraints, dynamic vision, motion analysis, image velocity, dynamic scene analysis, computer vision.

画像列からオプティカルフロー場を計算することは、画像特徴の一時変換 の制約の定義を必要とする。 本論文では、この計算図式での多重制約の使用の意味について考える。 最初に、異なる制約がある暗黙の特徴追跡に対応することを示す。 そして、最善の結果(測定精度と計算速度の両方に於て)は最適な制約 を選択し応用することによって得られる。これら最適な制約は考慮された 特有の画像特徴でチューニングして得られたものである。 多重画像の点を考慮することによって、速度場の推定をより正確にでき、かつ、 速度場の不連続性質を起因にする計測の誤差を検出することもできる。 さらに、定加速度運動モデルを仮設することにより、オプティカルフロー の微分をも計算した。 実画像を用いた幾つかの実験結果を提示する。

LXP

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


統計的モデルを用いた視覚テキスト認識における言語文法の取り扱い
Incorporating Language Syntax in Visual Text Recognition with a Statistical Model

Jonathan J. Hull

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December 1996

Keywords: Text recognition, OCR, document recognition, document analysis, syntax, language syntax, HMM, hidden Markov model, character recognition.

手書きまたは活字テキストのディジタル画像を認識するアルゴリズムの性能 向上を図るための、統計的な言語モデルについて論ずる。 まず、単語認識アルゴリズムは、画像として視覚的に互いによく似た語彙か ら単語集合(近傍と呼ぶ)を決める。 文法的方法による単語への分類と、そうした分類のあいだの遷移確率とが、 Viterbi アルゴリズムの入力となる。 Viterbi アルゴリズムは、観測される近傍が与えられるとして、最大事後確 率を持つ各々の文に対する文法的クラス(マルコフ過程の状態)の系列を決 める。 推定された状態系列に含まれないクラスの近傍から単語を取り除くことによ り、単語認識の性能が向上する。 実験的に作られたアプリケーションとともに、ランニングテキストの各単語 の同定に関するいくつかの推測を生み出す近傍生成アルゴリズムが示される。 近傍推定における、0次、1次及び、2次遷移確率、及び異なるレベルのノ イズをいかに用いるかが探究される。

Sz

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き数字認識のための自動的な特徴生成
Automatic Feature Generation for Handwritten Digit Recognition

Paul D. Gader and Mohamed Ali Khabou

IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 18, No. 12, December 1996

Keywords: Handwritten digit recognition, feature generation, feature selection, entropy, information, orthogonality, neural networks.

手書き数字認識のための自動的な特徴生成について述べる。 特徴の探索は、二つの異なる評価測度(垂直性と情報) に基づいて行われる。 その特徴は、 バックプロパゲーションにより学習されたニューラル・ネットワークに おいて用いられる。 分類率については、高精度手書き数字認識システムについての既刊の サーベイに載せられた結果との比較がなされる。 この識別器は、いくつかの他の高精度識別器と結合される。 1クラス当たり1000文字のテストセットについて、二つの識別器を 用いると、およそ98%前後の認識率が得られる。

Sz

Copyright (c) 1996 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


[インデックス] [前の年] [次の年]