본문 바로가기
Machine learning

기계학습의 파라다임(bias, 귀납편향)

by ciwhiz 2012. 5. 30.

2 결정 트리를 이용한 분류 기법

분류 기법은 데이터 마이닝에서 가장 많이 쓰이는 기법 중의 하나로써 과거에 있던 데이터베이스로부터 클래스의 속성이 미리 알려진 트레이닝 셋을 분석해서 각 클래스에 대한 정확한 표현이나, 모델을 개발해서 미래를 예측하는 것에 목적이 있다.

 

결정 트리에 기반한 분류기는 다른 분류 기법과 비교해 볼 때 상대적으로 빠르고 간단하며 이해하기 쉬운 분류 규칙으로 전환이 쉽다는 장점을 가진다.

 

결정 트리는 내부노드와 리프노드, 가지(branch)로 이루어진 구조를 가지고 있다. 내부노드는 데이터 속성에 대한 테스트를 나타내고 노드와 노드 사이의 테스트에 대해 속성이 가질 수 있는 값들을 가리킨다리프노드는 최종적으로 각 레코드가 분류되는 클래스를 나타낸다.

 

데 이터 마이닝에서는 데이터가 대량이라는 특성을 가지고 있기 때문에 효율성과 확장성(scalability)에 대한 문제가 제기된다.  따라서 대용량의 트레이닝 셋을 처리하기 위한 알고리즘을 BI 시스템의 특성에 맞게 3단계의 과정을 통해 변형 및 구현하였다.

 

결정 트리를 기반으로 한 분류기는 될 수 있으면 트리를 단순하게 생성하면서 적은 수의 속성에 대한 테스트만을 가지고 주어진 레코드를 정확히 분류할 수 있어야 한다. 적은 테스트만을 통해서 정확히 분류하기 위해서는 주어진 데이터를 가장 잘 분류할 수 있는 속성을 찾는 것이 중요한데, 이를 위해 정보 이론 기반의 휴리스틱을 사용한다. 이 휴리스틱은 가장 큰 정보이익(information gain)을 제공하는 속성을 찾는다.

D는 트레이닝 셋, C는 클래스의 수, p(D,j)는 D에서 j번째 클래스에 속하는 경우의 비율이라고 할 때 클래스의 복잡도는 다음과 같이 계산된다.

 

트레이닝 셋이 위의 복잡도를 가질 때, 각 속성에 대해 클래스를 나누어 봄으로써 어느 정도 복잡성이 줄어들었는지를 계산한다.  이것을 information gain이라 하는데, 이것은 다음과 같이 계산된다.

 

각 속성에 대한 테스트는 결과로 나오는 경우의 수에 영향받으며, 각 부분집합 Di에 하나의 클래스만 속해 있을 때 gain은 최대값을 갖게 된다. 그러나 information gain에 기반을 둔 속성 선택은 그 속성이 가능한 많은 값을 가지고 있을 때, 속성의 모든 가능한 값에 대해서 적은 수의 레코드의 부분집합을 생성한다는 단점이 있다.

 

gain ratio는 많은 분할을 생성하는 속성을 지양하는 것으로, split(D,T)를 gain(D,T)로 나눈 값이다. 가장 큰 gain ratio를 갖는 분할이 선택된다.

 

위의 과정을 거쳐서 형성된 결정 트리는 트레이닝 셋에 최적화되어 만들어진 것이다. 따라서, 트레이닝 셋에 포함되어 있는 데이터는 가장 잘 분류되어 질 수 있지만, 트레이닝 데이터에 존재할 수 있는 noise에 대해서까지 고려해서 트레이닝 셋에 너무 민감하게 생성됨으로써(overfit) 클래스 라벨이 알려지지 않은 데이터에 있어서는 분류의 정확도가 떨어지는 경향이 있다. 이에 대처하기 위해 규칙 후 가지치기(rule post-pruning) 기법을 사용한다. 이것은 일단 결정 트리를 트레이닝 데이터에 최적으로 생성시킨 후, 각각의 리프 노드에 해당되는 클래스에 대한 규칙을 생성해서 추정된 정확도에 따라 규칙들을 가지치기 하는 것이다.

 

Introduction  : Paradigms for Machine learning

                 (Jaime G. Carbonell)


      1997. 6. 4.

 

       인지과학 협동과정

 

                                 민경섭

 

                                심소영               


                





1. 역사적 조망

  기계 학습(machine learning, ML) 은 인공지능의 초기 단계에서 중심적인 역할을 담당하였다. 비록 문제 해결, 정리 증명, 계획, 자연 언어 처리, 로보트 공학, 전문가 시스템과 같은 다른 중요한 발달들로 AI에서 주목받는 부분이 기계 학습 자체에 대한 연구로부터는 멀어졌지만, 기계 학습은 여러가지 모습으로 점점 더 중요한 역할을 맡아왔다. 예를 들어, 선형 퍼셉트론에서의 초기 작업은 이론적인 한계로 사라졌지만, 80년대에 비선형 함수를 계산하고 학습할 수 있는 숨겨진 단위(hidden units)를 가진 연결주의 망(connectionist networks)으로 각광을 받으며 다시 나타났다. 그 사이에 많은 기호주의적 기계 학습 패러다임이 발달했고, 귀납적 개념 습득(inductive concept acquisition), 분류 시스템(classifier systems), 설명-기반 학습(EBL:explanation-based learning) 을 포함한 몇 가지는 강력한 계산적 방법으로 발전되었다. 현재 기계 학습 방법의 전 범위에 걸쳐 많은 연구 과제들이 진행중에 있으며, 그 중에는 학습의 이론에 촛점을 맞춘 것과 복잡한 영역에서의 문제 해결 수행력을 향상시키는 것에 관한 것들이 있다. 1980년대에 기계 학습 분야는 해마다 ML 학회를 개최하고 1,000명의 회원을 가진 저널과 수십 권의 책을 출판하며, 모든 주요 AI 학회에 광범위하게 출현하는 등, 인공 지능의 주요한 영역의 하나로 다시 나타났다.

  궁 극적인 목표이 달성되기 어렵고, 그들의 초기 연구가 실패(좌절)했음에도 불구하고, ML 연구자들이 학습에 대한 연구를 고집하는 이유는 바로 학습 과정의 본질 때문이다. 행동을 학습하고 적용하고 수정하는 능력은 인간 지능의 핵심적인 요소이다. 우리는 어떻게 하면 스스로 개선할 수 없지만 진정으로 인공적이며 지능적인 기계를 만들 수 있는가? 브리타니카 백과사전이 지능적이라고 불릴 수 없는 것과 마찬가지로, 전문가 시스템도 “지능적”이라고 불릴 수 없지 않은가? 많은 ML 연구자들의 기본적인 신념은, 학습은 어떤 형태의 진정한 지능이건간에 선행되어야 하는 필수 조건이며, 따라서 그에 대한 도전이 아무리 강할지라도 철저히 연구되어야 한다는 것이다. 철학적 고찰 그 자체는 접어두고라도, 지식 표현이나 추론과 같은 기계 학습에서의 중요한 영역은 모든 AI 문제 영역들 - 문제 해결, 정리 증명, 비단조 추론(nonmonotonic reasoning), 자연 언어 처리, 음성 인식, 비젼, 로보틱스, 계획, 게임 수행, 패턴 인식, 전문가 시스템 등 - 에 영향을 주고 있다. 원리적으로, ML에서의 진보는 이들 모든 영역에 커다란 영향을 미칠 수 있다. ML은 인공 지능의 핵심 부분이다.

  최 근에 기계 학습 연구는 다양한 방식으로 성과를 올리기 시작했다. 견고한 이론적 기반이 수립되고 있고, 기계 학습 방법들이 성공적으로 강력한 수행 시스템들에 접목되고 있다. 그리고 보다 안정된 기술에 기반한 실제적인 응용이 이미 그 모습을 드러내고 있다. 최근 기계 학습에서 성공을 거둔 것에는 결정 트리 귀납법(decision-tree induction)이 산업 과정 제어 분야에 적용된 것, 설명-기반 학습이 일반적인 지식-집중적(knowledge-intensive) 추론 시스템(SOAR[9], PRODIGY[11], THEO)에 접목된 것, 신경망 학습의 확장된 형태가 히든 마코프(hidden Markoff) 모델과 같은 전통적인 방법을 능가하는 정확도로 단위 시간 지연(modular time delay) 신경망에서 음운 수준의 음성 인식을 한 것 등이 포함된다.

  이 제 우리는 활동적으로 연구되고 있는 네 가지 주요한 ML 패러다임과 각 패러다임 내의 여러 개의 하위 패러다임을 정의할 수 있다: 귀납적 학습 (예. 긍정적, 부정적 예들로부터 개념을 습득), 분석적 학습 (예. 설명-기반 학습, 그리고 특정 형태의 분석적인 사례-기반 학습(case-based learning)), 유전 알고리즘(genetic algorithm) (예. 분류 시스템(classifier systems)[7]), 연결주의적 학습 방법 (예. 비회귀적 역전파 숨겨진 층 신경망(nonrecurrent backpropagation hidden layer NNets)). 이 패러다임들은 모두 다양한 작업 영역에 의미있게 학습할 수 있는 기계를 만든다는 공통적인 목표를 갖고 있지만, 서로 다른 과학적 배경, 계산 방법, 성공 평가 기준을 가지고 있다. 학습의 조작적 정의는 다음과 같다. 학습은 학습 과정에 의해 생긴 변화의 결과로 전에 수행할 수 없었던 새로운 작업을 수행할 수 있는 능력, 혹은 예전의 작업을 더 잘(빨리 또는 정확히) 수행할 수 있는 능력을 의미한다. 학습이 무엇을 의미하는가에 대한 이런 기본적인 합의을 제외하면, 이 네 가지 패러다임 모두가 공유하는 가정은 거의 없다.

  이 책의 주된 목적은 독자가 각 기계 학습 패러다임에 익숙해져서, 각  ML 접근 방식을  실제로 사용하고 있는 연구자들이 제안한 것을 직접 읽을 수 있도록 하는 것이다. 이 책에 수록된 논문의 각 저자는, 인공지능에 대해 잘 알고 있지만 기계 학습에 전문가이지는 않은 독자를 위해, 명료한 역사적 관점과 통패러다임(cross-paradigmatic) 적인 관점을 가지고 그 자체로 완결되는 논문을 쓰도록 요청 받았다. 대부분의 저자들은 자신들의 기계 학습 관점에 대한 여러 가정들, 기본적인 계산 방법들, 그리고 이 방법들의 발전 과정들과 그들의 최근 연구 결과에 대한 보고를 포괄하는 광범위한 형태의 논문을 수록했다. 만약 이 책이 각 패러다임 간의 비교를 고무시키고, 공통된 목표를 성취하기 위해 사용되는 서로 다른 학습 방법의 이해를 증진시킴으로써, 다른 패러다임의 기계 학습을 연구하려는 사람들간의 의사 전달을 개선하는데 도움이 된다면 더욱 바람직하겠다.



2. 귀납적 패러다임(Inductive Paradigm)

  기호주의적 학습을 위해 가장 널리 연구되는 방법은, 찾고자 하는 하는 개념에 대한 일련의 사례(example)들과 그 개념에 대해 잘 알려진 반례(counterexample)들로부터 일반적인 개념 기술을 이끌어내는 방법이다. 이 작업은, 학습시에 제시한 모든 긍정적 사례가 보편 사례화(universal instantiation)에 의해 다시 도출될 수 있는 반면, 학습시에 제시한 부정적 사례는 어떤 것도 다시 도출될 수 없는 개념 기술(concept description)을 만들어 내는 것이다. 이 문제는 추상적 수준에서는 간단하게 보이지만, 사실 제대로 파악되지 않고 있다. 잠재적인 귀납 시스템의 설계 공간은 다음과 같은 많은 중요한 차원에 의해 결정된다.

   - 기술 언어 (Description language).  기술 언어란 입력 사례들과 출력 개념들이 표현되는 언어이다. 기술 언어는 표현 능력 면에서 다양할 수 있다(예. 명제 논리(propositional logic), 일차 논리(first-order logic), 혹은 그 이상의 고차적 논리). 그 기술 언어 내의 변수 도메인은 이산적, 연속적, 혹은 이 둘이 결합된 형태를 가질 수 있으며, 그 값들은 그 도메인 내의 특정 위치(점)나 가능한 도메인 값들 간의 확률 분포로 표현될 수 있다. 초기 대부분의 개념 습득 시스템들은 한정된 목록을 가진 도메인에서 한 개의 값을 가지는 변수들을 가진 명제적 표현들(속성-값 리스트)만을  다루었다. 연속된 값을 가지는 변수는 임의로 이산적 간격으로 나뉘어 표현되었다. 현재 시스템들은 모든 가능성을 탐색하지 시작했다. 그러나 대부분의 시스템은 모든 관련된 기술자(descriptor)들이 학습 시작시에 존재해야 한다는 점에서 고정된 어휘를 사용한다는 가정을 요구한다. 최근에 어떤 연구자들은 표현적 이동(representational shift)라고 불리는 학습 주기동안 성장하는 기술 언어가 함축하는 바를 고려하기 시작했다.

   - 잡음과 사례 분류 (Noise and instance classification).  초기 대부분의 예제로부터의 학습(learning-from-examples) 시스템은, 모든 사례가 목표 개념에 비추어 긍정적인 혹은 부정적인 사례로 올바르게 분류되어 있다는 것을 가정했다. 다시 말해, 그 시스템들은 일련의 잘 형성된 데이타를 제공하는 자비롭고 정확한 선생의 존재를 가정했다. 그런 가정은 실세계에서 적용하는데 제한을 가하기 때문에, 새로운 시스템은 사례들이 부정확하게 분류되거나 분류되지 않을 가능성, 혹은 사례들이 부분적으로 명시될 가능성(어떤 애트리뷰트는 알려지지 않을 수 있다), 혹은 속성값에 측정 에러가 일어나거나, 그 속성들간의 관련 정도가 다를 수 있을 가능성을 면밀히 조사한다. 신호 대 잡음 비율이 받아들여질 만하고 사례의 수가 충분히 많다면, 학습 방법에  통계적 기술을 접합하는 것이 도움이 될 것이다.

   - 개념 유형 (Concept type).  어떤 학습 시스템들은 차별적(discriminant) 개념을 얻으려고 애쓴다.  차별적 개념의 기술은, 그 시스템에 알려진 다른 모든 개념들의 모든 사례들로부터 그 개념의 모든 사례들을 분리하기 위해 고안된 테스트들의 집합이다. 대개 차별적 개념 기술들은 루트로부터 증가적으로 획득되는 결정 트리의 말단까지의 경로로 부호화된다. 어떤 다른 학습 시스템들은 특징적(characteristic) 개념을 습득한다. 특징적 개념들은 개념 기술에서 간결성과 정확성을 찾으려고 애쓴다. 이러한 개념들은 사용자와 의사소통하기 훨씬 쉽고, 그 개념들이 그 수행 시스템의 다른 부분들에 의해 해석되어야 할 때 보다 유용한 것으로 알려져 있다. 그러나 개념 기술을 단순하게 표현하는 방식은 종종 정확성을 떨어지게 한다. 특징적 개념은 엄격한 구별 기준에 반드시 들어맞지는 않는다. 특징적 개념 기술은 대개 논리식의 프레임으로 부호화된다. 학습 시스템의 귀납적 편향(inductive bias)은 대개 습득되어야 할 개념 유형에 대한 선호(preference)로서 표현된다. 개념 기술의 단순성은 도메인 독립적 귀납 편향의 가장 잘 알려진 형태이다.

   - 사례들의 원천 (Source of instances).  초기의 예제로부터의 학습 모델은 얻고자 하는 하나의 개념에 대한 일련의 분류된 예들을 한번에 제공하기 위해서 외부의 교사를 필요로 했다. 우리는 이 데이타에 잡음이 있을 가능성을 고려하는 동시에, 외부의 교사를 완전히 제거하고 외부 세계를 데이타의 원천으로 사용할 수 있다. 이런 경우들에 학습 시스템은 예제들을 찾기 위해 더욱 적극적이어야 하고, 한 번에 여러 개의 개념들에 대해서 대처해야 하며, 외부 조언의 참고, 실험, 혹은 개념 클러스터링 기법[10]을 사용하여, 스스로 사례를 분류하려고 해야 한다. 현재의 작업은 부분적으로 형성되는 개념들(다차원 이진 탐색의 복잡한 형태)에서의 불확실성을 최대한 줄이기 위해 사례들을 적절히 선택하는 문제를 역점을 두어 다룬다.

   - 점진적 귀납 대 일회적 귀납 (Incremental vs. one-shot induction).  일회적 귀납 학습 시스템은 연습 데이타로 한번에 주어진 모든 긍정적 그리고 부정적 사례들을 고려하며, 학습 후에 수정되지 않는 개념 기술을 만든다[4]. 점진적 기법은 최선의 추정 개념(best-guess concept)[16], 혹은 지금까지의 데이타에 일관된 범위의 개념을 만들어 낼 수 있고, 또한 학습과 수행을 번갈아 할 수 있다. 학습이 계속해서 진행된다는 측면에서 후자가 실세계 상황을 더 정확히 반영하므로 최근에 더 많이 연구되고 있다.



3. 분석적 패러다임(Analytic Paradigm)

  최근에 더욱 폭넓게 연구되어온 학습 패러다임은 아주 적은(때로는 하나의) 모범예(examplar) 와 풍부한 기저의 도메인 이론으로부터의 분석적 학습에 기반하고 있다. 이와 관련있는 방법들은 귀납적이기 보다는 연역적이며 과거의 문제 해결 경험을 이용하여, 새로운 문제를 풀 때 어떤 연역적인 연쇄 과정으로 수행할 것인가를 찾아내고, 도메인 지식을 더욱 효과적으로 적용할 수 있게 하는 탐색 제어 규칙을 만든다. 따라서 분석적 방법은 개념 기술의 라이브러리를 확장하기 보다는, 정확성이나 일반성을 희생하지 않고 시스템의 효율을 향상시키는데 촛점을 맞춘다. 현대 분석적 학습 방법의 선구자는 매크로 연산자(macro operator)[5], 그리고 최소 선결 조건 분석(weakest precondition analysis)과 같은 형식적 방법들이다. 현재 분석적 학습 방법들은 설명-기반 학습[3, 13], 다단계 청킹(multi-layer chunking)[9], 반복적 매크로 연산자(iterative macro-operators)[2], 파생적 유추(derivational analogy)[1]에 집중되어 있다. 몇 가지 기본적인 문제는 모든 분석적 방법들에 공통된다.

   - 사례들의 표현 (Representation of instances).  분석적 방법에서 하나의 사례는 문제 해결 과정의 일부분에 해당한다. 그리고 학습은 그 하나의 사례와 배경 지식(도메인 이론이라 불린다)을 사용한다. 가장 간단한 경우에 하나의 사례는 단지 일련의 연산자들이다. 이러한 연산자들은 매크로 연산자로 그룹화되거나 유추적 전이로 수정되거나, 혹은 설명-기반 학습에서의 문제 해결 증명 단계로 간주될 수 있다. 최근에 문제 해결 과정은 그 연산자들과 함께 정당화 구조를 수반한다. 정당화 구조는 목표-하위 목표 트리, 각 연산자가 선택된 이유에 대한 설명, 실패한 해결 시도들의 과정들 모두가 의존 관계로 상호 연결된 것이다. 이러한 과정은 일반화된 청킹, 파생적 유추(이 책의 Mostow에 의해 적용됨), 설명-기반 세분화(이 책의 Minston에 의해 논의됨)와 같은 더 고급의 학습 과정들을 가능하게 한다.

   - 성공 혹은 실패로부터의 학습 (Learning from success or failure).  가 장 초기의 분석적 기술은 단지 더 효율적으로 성공을 거듭하기 위한 능력만을 습득하였다 (예. 매크로 연산자, 초기 설명-기반 학습, 초기 청킹). 그러나 같은 혹은 유사한 실패 원인으로 발생할 수 있는 미래의 실패를 막기 위해, 실패로부터의 학습이 중요하게 되었다. 최근의 EBL 기술들, 유추적 방법들, 그리고 SOAR[9]와 같은 시스템에서의 청킹은, 성공과 실패 모두로부터 학습한다.

   - 일반화의 정도 (Degree of generalization).  분석적 학습에서 습득된 제어 지식은 모범예의 상황으로 한정되거나 혹은 해당 도메인 이론에 의해 허용되는 범위까지 일반화될 수 있다. 일반화 전략은 (가상적으로 모든 분석적 방법내에서) 부적절한 정보를 제거하는 것에서부터, 확고한 도메인 이론과 구조 이론(이 책에서 Minston등에 의해 논의됨)이 있는 상황에서 제어 지식을 가장 일반적인 형태로 향상시키기 위한 일반적인 메타 추론 전략들을 적용하는 데까지 이른다.

   - 닫힌 루프 대 열린 루프 학습 (Closed vs. open loop learning).  열린 루프 학습은 새로운 지식의 정확성이나 유용성에 의문을 갖게하는 증거가 나중에 나타나는가에 상관없이, 한 번에 새로운 지식을 습득하는 것을 의미한다. 반면, 닫힌 루프 학습은 그 새로운 지식이 기대만큼 시스템의 수행력을 향상시키지 못할 경우, 수정이나 삭제될 수 있도록 새로 습득된 지식의 차후 평가를 허용한다. 새로이 학습된 지식에 대한 수행력 측정은 그 지식이 본질적으로 경험적이라는 것을 드러낸다. 단지 제어 지식의 습득만이 순수하게 분석적이다.



4. 유전학적 패러다임(Genetic Paradigm)

  유전 알고리즘(‘분류 시스템’으로 불리기도 함)은 기계 학습 패러다임 중에서 극도로 경험적인 입장을 나타낸다. 유전 알고리즘은 생물학적 번식에서의 돌연변이(cross-over, point mutation 등)와 다윈의 자연 선택(각 생태학적 활동 범위에서의 적자 생존)에서의 직접적인 유추에 의해 영감을 받은 것이다. 개념 기술에서의 변종(variant) 들은 한 종의 개체에 해당하고 이러한 개념들의 유도된 변화와 재조합은 어떤 것이 유전자 풀에서 보존될 수 있는가를 판단하기 위해 목적 함수(자연 선택 기준)에 대해 검사된다. 원리적으로 유전 알고리즘은 개념 공간을 병렬적으로 탐색하도록 부호화되어 있으며, 각 단계는 변동 범위가 큰 등산법(coarse-grain hill climbing)을 수행한다.

  홀 랜드(Holland)[7]의 작업에서 비롯된 유전 알고리즘 집단은 대체로 다른 기계 학습 접근 방법과 무관하게 발전해 왔다. 그리고 그 자신만의 분석적 도구, 응용, 그리고 워크샵을 발전시켜 왔다. 그러나 많은 근본적인 문제점들과 기법들은 귀납법의 주류, 그리고 연결주의적 패러다임의 그것과 일맥상통한다. 예를 들어, 모든 경험적인 학습에서와 같이, 목적 함수로써 측정되는 수행력의 변화에 대해 신뢰값(credit)이나 부정값(blame)을 설정하는 것은 어렵고 간접적이다. 귀납적 접근 방법에는 이러한 문제를 해결하기 위한 많은 방법들이 있으며, 그 기원은 사무엘(Samuel)[15]로 거슬러 올라간다. 유전 알고리즘을 위해서 홀랜드는 버켓 브리게이드(bucket brigade) 알고리즘[8]을 발전시켰다. 그리고 신뢰값/부정값 부여는 역전파 기법에 의해 보여지듯이 모든 연결주의적 학습 방법에 단연 중심적인 요소이다.



5. 연결주의 패러다임(Connectionist Paradigm)

  신경망(NNet)’ 혹은 ‘병렬 분산 시스템(PDPs)’ 이라고도 불리는 연결주의적 학습 시스템들은 최근 많은 관심을 받아왔다. 연결주의적 학습 시스템은 퍼셉트론과 초기 선형 신경망의 이론적 한계를, 중간 처리 과정을 표현하고 비선형적 인식 함수를 계산하는 ‘숨겨진 층’의 도입으로 극복하였다. 연결주의 시스템에는 두 가지 기본적인 유형이 있다. 하나는 분산 표상(distributed representations)을 사용하는 시스템인데, 여기서 개념은 잠재적으로 전체 망에 걸쳐있는 활성화된 패턴에 해당한다. 그리고 다른 하나는 국부 표상(localized representations)을 사용하는 시스템인데, 여기서는 망의 물리적인 부분이 각각의 개념에 해당된다. 비록 복잡한 시스템을 구성하는 계층적인 모듈화가 개념 표현의 물리적인 범위를 제한하지만, 전자가 더 널리 인정받는 유형이다.

  연결주의적 시스템들은 전체론적(holistic) 방식으로 입력 도메인의 패턴들의 동치 집합들을 식별하는 것을 배운다. 이 시스템들은 각 동치 집합의 대표적인 사례들로 구성된 훈련 집합을 제시받는다. 그리고 이 시스템들은 각 대표적인 집합들의 이런 저런 사례들을 인식하는 것을 배운다. 학습은 볼쯔만(Boltzmann)[6] 방법이나 역전파 기법과 같은 서로 다른 학습 알고리즘을 이용하여 고정 위상 네트웍에서 웨이트 값을 재조정하는 것으로 이루어진다. 기본적으로 이런 알고리즘들은 망에서 활성화된 모든 링크의 각각의 웨이트 값으로 부여될 신뢰값을 최후의 식별 결과로부터 거꾸로 계산한다. 물론 이 책의 힌스톤(Hinston)의 논문에 보고된 것처럼, 훨씬 더 큰 복잡성과 많은 미묘한 변인들이 이와 관련되어 있다.

  구 조적인 차이에도 불구하고, 우리는 연결주의적 학습 시스템과 차별 학습을 사용하는 기호주의적 학습 시스탬(귀납적 시스템과 유전 알고리즘) 간에 강한 기능적 유사성이 있음을 발견할 수 있다. 귀납적인 기호주의적 결정 트리와 신경망은 미리 많은 분류된 사례 패턴들로부터 훈련된다. 또한 둘다 잡음에 견딜 수 있고(noise-tolerant), 훈련 후 새로운 사례들을 올바르게 분류하는 작업을 받는다. 처리해야 할 작업에 대한 각 기법의 적절성을 평가하기 위해, 우리는  몇 가지 세부적인 정량적 비교를 해야한다. 즉, 첫째, 훈련 데이타를 적합한 형태로의 변환 용이성, 둘째, 충분히 정확하게 수행하기 위해 필요한 훈련 데이타의 양, 셋째, 훈련 단계와 수행 단계 양측에서의 각 기법들의 상대적인 계산 부담, 그리고 그외 다른 인자들을 비교해 보아야 한다.



6. 패러다임간 고찰

  세 가지의 기호주의적 패러다임과 연결주의적 패러다임을 대조하기 보다는 좀더 포괄적인 생각을 해보도록 하자. 여기에서는 다른 패러다임을 희생시키고 하나의 패러다임을 지지하는 분파적 논쟁을 하기보다는, 각 도메인 문제의 속성이 어떤 접근 방법의 선택을 선호하는지를 간략히 요약하도록 하겠다.

   - 신호-기호 대응 (Signal-symbol mapping).  파형과 같은 연속적인 신호로부터 음성 인식에서의 음소와 같은 의미있는 이산적인 기호로의 대응. 최선의 접근 방식 : 연결주의(혹은 동적 프로그래밍이나 히든 마코프(hidden Markhoff) 모델과 같은 전통적인 통계적 학습 방법).

   - 연속적 패턴 인식 (Continuous pattern recognition).  아날로그 신호로부터 작은 동치 부류들의 이산 집합으로의 대응. 최선의 접근 방식: 연결주의. 귀납적 혹은 유전학적 접근 방식은 신호-기호 대응이 우선 해결되어야 한다. 아니면, 수치 범위로 미리 설정된 특질 집합을 우선적으로 제공해주어야 한다.

   - 이산적 패턴 인식 (Discrete pattern recognition).  특질들의 집합에서 미리 정의된 동치 부류 멤버로의 대응(예. 비상호작용적 의료 진단). 최선의 접근 방식: 결정 트리를 가지는 귀납 학습, 다른 귀납적 접근들, 유전 알고리즘, 그리고 연결주의적 방법도 적용될 수 있다.

   - 새로운 개념 기술 습득 (Acquiring new concept descriptions).  예제들로부터 일반적인 기술로의 대응. 최선의 접근 방식: 인간 사용자에 대한 설명이나 다른 시스템 모듈에 의한 조작을 허용하여 특징 개념 기술을 얻어내는 귀납법. 유전 알고리즘과 연결주의적 접근은 특징적인 개념 기술을 만들어내지 않는다.

   - 전문가 시스템을 위한 규칙 습득 (Acquiring rules for expert systems).  행위 궤적들로부터 일반 규칙으로의 대응. 강력한 도메인 이론이 존재하면, 유추적 혹은 EBL 접근 방법이 최선이다. 만약 존재하지 않는다면 귀납적 혹은 유전학적 접근 방법이 더 낫다. 연결주의 시스템은 이전 상태에 대한 기억을 유지하지 않으므로 다단계 추론이나 연역적 연쇄 과정을 잘 묘사할 수 없다.

   - 규칙 기반 시스템의 효율성 증대 (Enhancing the efficiency of rule-based systems).  지식이 거의 없거나 아주 적은 상태에서 사용하는 방법(weak method) 에 의해서만 유도되는 탐색으로부터 도메인 의존적인 특정 행동으로의 대응. 최선의 접근 방법: 매크로 연산자와 청킹에서 EBL과 유추까지의 분석적 기법들. 이 분야는 배경 지식이 가장 효과적으로 사용될 수 있는 곳이다. 즉, 분석적 기법으로 효율적인 수행을 위한 제어 결정을 재형식화하는데 배경 지식이 사용된다.

   - 교육과 기호주의적 추론 (Instruction and symbolic architectures).  독립된(stand-alone) 시스템에서 협동적 문제 해결로의 대응. 사용자와 시스템이 자원을 공동으로 사용하고 함께 추론할 때, 혹은 그 중 하나가 다른 것을 가르치고자 할 때, 지식은 양측 모두가 이해할 수 있는 형태로 명료하게 표현되어야 한다. 최선의 접근 방법: 특징적인 개념 기술을 가진 귀납 추론 혹은 사례에 기반하여 유추하는 분석적 추론. 유전학적 시스템이나 특히 연결주의적 시스템은 사용자 혹은 다른 시스템 모듈과 직접 통신함으로써 얻을 수 있는 지식을 표현할 수 없다. 예를 들어, 수치적 연결 강도로 구성된 거대한 배열이 가지는 의미를 외부에서 이해하기는 어렵다.

   - 통합된 추론 구조 (Integrated reasoning architectures).  일반적인 추론 원리로부터 선택된 영역에서 촛점이 맞춰진 행동으로의 대응. 비록 분석적 방법이 지금까지는 가장 성공적이었지만, 원리적으로 학습의 모든 방법이 적용될 수 있다.


  과도한 일반화의 위험을 무릅쓰고 우리는 다음과 같이 일반적인 고찰을 할 수 있다. 연결주의적 접근방법은, 만약 매우 많은 훈련 예들이 존재한다면, 구조화되지 않은 연속적인 영역에서 한 단계의(single-step) 형태 인식에 탁월하다. 연결주의적 접근 방법과 극단적으로 대비되는  분석적 방법은, 비록 이용가능한 훈련 예가 거의 없다 하더라도, 철저한 추론과 다단계 추론을 필요로 하는 잘 구조화된 지식이 풍부한 영역에 가장 좋다. 귀납적 그리고 유전학적 기법은 이 두 극단 사이의 중간 정도 위치에서 좋다. 분명히 하나 이상의 방법으로 접근될 수 있는 많은 작업들이 존재하며, 어떤 방법이 최적의 접근 방법인가를 평가하기 위해서는 세밀한 정량적 분석이 필요하다. 더 중요한 것은, 학습의 다양한 형태가 공존해야 하는 복합적인 작업, 즉, 센서 인터페이스에서는 연결주의적 접근 방법을, 행동의 경험적 규칙을 형식화하기 위해서는 귀납적 방법을, 그 영역의 모델이 충분히 이해될 때 수행력을 향상시키기 위해서는 분석적인 방법을 사용하는 복합적인 작업이 존재한다는 것이다.


<참고 문헌>


1. Carbonell. J.G., Derivational analogy: A theory of reconstructive problem solving and expertise     acquisition. in: R. A. Michalski, J.G. Carbonell and T.M. Mitchell (Eds.)., Machine Learning:       An Artificial Intelligence Approach 2 (Morgan Kaufmann, Los Altos, CA. 1986).

2. Cheng, P.W. and Carbonnel, J.G., Inducing iterative rules from experience: The FERMI             experiment. in: Proceedings AAAI-86. Philadelphia. PA (1986) 490-495.

3. DeJong, G.F. and Mooney, R., Explanation-based learning: An alternative view. Mach. Learning     1 (1986) 145-176.

4. Dietterich, T.G. and Michalski, R.S., A comparative review of selected methods for learning       structural descriptions. in: R.S. Michalski, J.G. Carbonell and T.M. Mitchell (Eds.), Machine       Learning: An Artificial Intelligence Approach (Tioga, Palo Alto, CA, 1983).

5. Fikes, R.E. and Nilsson, N.J., STRIPS: A new approach to the application of theorem proving     to problem solving. Artificial Intelligence 2 (1971) 189-208.

6. Hinton, G.E., Sejnowski, T.J. and Ackley, D.H., Boltzmann machines: Constraint satisfaction        networks that learn. Tech. Rept. CMU-CS-84-119, Computer Science Department.                Carnegie-Mellon University, Pittsburgh, PA (1984).

7. Holland, J., Adaptation in Natural and Artificial Systems (University of Michigan Press, Ann      Arbor, MI, 1975).

8. Holland, J.H., Escaping brittleness: The possibilities of feneral-purpose learning algorithms         applied to parallel rule-based systems. in: R.S. Michalski, J.G. Carbonell and T.M. Mitchell        (Eds.)., Machine Learning: An Artificial Intelligence Approach 2 (Morgan Kaufmann, Los          Altos, CA. 1986) 593-624.

9. Laird, J.E., Rosenbloom, P.S. and Newell, A., Chunking in Soar: The anatomy of a general        learning mechanism. Mach. Learning 1 (1986) 11-46.

10. Michalski, R.S. and Stepp, R.E., Learning form observation: Conceptual clustering in: R.S.         Michalski, J.G. Carbonell and T.M. Mitchell (Eds.), Machine Learning: An Artificial               Intelligence Approach (Tioga, Palo Alto, CA, 1983).

11. Minton, S., Carbonell, J.G., Etzioni, O., Knoblock, C.A. and Kuokka, D.R., Acquiring effective       search control rules: Explanation-based learning in the PRODIGY system. in: Proceedings         Fourth International Workshop on Machine Learning, Irvine, CA, (1987) 122-133.

12. Mitchell, T.M., Version spaces: An approach to concept learning. Ph.D. Dissertation. Stanford      University, Stanford, CA, (1978).

13. Mitchell, T.M., Keller, R. and Kedar-Cabelli, S., Esplanation-based generalization: A unifying      view. Mach. Learning 1 (1986) 47-80.

14. Quinlan, J.R., Learning efficient classification procedures and their application to chess and        games. in: R.S. Michalski, J.G. Carbonell and T.M. Mitchell (Eds.), Machine Learning: An         Artificial Intelligence Approach (Tioga, Palo Alto, CA, 1983).

15. Samuel, A.L., Some studies in machine learning using the game of checkers. in: E.A.             Feigenaum and J. Feldman (Eds.), Computers and Thought(McGraw-Hill. New York, 1963)       71-105.

16. Winston, P., Learning structural descriptions from examples. in: P. Winston (Eds.), The           Psychology of Computer Vision(McGraw-Hill. New York, 1975).

 ☞ 출처 :  서울대학교 컴퓨터기계공학 <http://scai.snu.ac.kr >

   
           원문 : http://scai.snu.ac.kr/Workshop/aifiles/kseop/learning.hwp
    

◆ 가우리블로그정보센터 < http://cafe.naver.com/gaury.cafe >