본문 바로가기
Computer Science/AI

인공지능 개론

by HaningYa 2020. 9. 2.
728x90

수업공지

  • 이번주 다음주 비대면 수업
  • 레포트 10개 나갈 예정 (프로그램 주고 학습 데이터 다 줄꺼임, 파이썬만 쓸 수 있으면 바로 구현하면 됨)
  • 결과는 모든 사람이 똑같이 나올건데 여러가지 테크닉 사용해서 성능을 올리면됨
  • 기본 코드 실행하면 기본점수, 성능에 따라 차등
  • 강의와 과제는 별도로 움직임
  • 파이썬 날코딩으로 알고 짜는 딥러닝 책 참고하면됨
  • 심층학습의 기본적인 컨셉을 코드로 배울 예정
  • 다다음주 부터는 수업 대면, 비대면 반반 씩
  • 데이터 주어지면 70 training 15 validation 15 test data

문제를 푸는 tool로써 AI 가 아닌 인공지능의 기본이론을 전통적인 기법부터 해서 배울 예정

  • 개념적으로 문제를 접근하지 않으면 그냥 문제를 푸는 도구일뿐
  • 개념을 익혀야 40대때 PM이 될 수 있음 -> 개념화 능력 중요
  • 탐색, 규칙, 지식표현, 통계적 기법 은 수업시간에 과제는 전부 기계학습으로 진행됨

인공지능이 가진 편향성과 대처

  • 편향된 데이터로 학습시키면 편향이 발생한다.
  • 구글 인공지능 이미지 검색으로 흑인을 검색하니 고릴라가 나왔다. -> 구글이 다시 학습시킴
  • 피부색이 밝은 사람이 체온계를 들고있을 때 체온계로 인식 되는데 검은 사람은 총으로 인식되었다.
  • 편향된 데이터는 위험하다.
  • 알고리즘이 공정할 것 이라는 생각을 버려야 한다.
  • 소스가 공개되있어 알고리즘은 알지만 결국 어떤 데이터가 있는지에 따라 편향이 생길 수 있다.
  • 네이버나 다음의 인공지능 기반 기사 선별 배치 알고리즘도 편향성 의혹이 있다.
  • 기업은 인공지능 및 알고리즘을 사용할 때 갖춰야 하는것
    1. 투명성
    2. 설명 가능성
    3. 공정성
    4. 견고성
    5. 실증적 타당성
    6. 책임성
  • 예를들어 가짜프로필, 허위가입자, 가짜 좋아요 등 소비자를 기만하는 행위는 사기로 간주될 수 있다.
  • 머신러닝 데이터 확보를 위해 이용자의 음성과 상징 이미지, 민감한 정보를 몰래 수집하거나, 이용자의 얼굴 정보를 동의 없이 수집하는 행위 등을 하면 안 된다. (중국 AI 잘하는 이유)
  • 기업은 인공지능, 알고리즘 판단을 기반으로 소비자에게 불리한 결정을 할 때 그 이유를 명확하고 구체적으로 설명해야 한다.
    -> 알고리즘의 판단으로 신용등급이 낮아지면 왜 낮아졌는지 설명 할 수 있어야 한다.
  • 의사 결정할 때 활용되는 정보에 대한 정보 주체의 접근 권한과 수정 기회를 보장할 것 도 의무
    -> 잘못된 데이터가 있으면 수정을 요구할 수 있어야 한다.
    -> 기업이 인공지능, 알고리즘에 맡겨 소비자 정보를 신용평가사 등 제 3자에게 제공할 때도, 정보 주체에게 오류 수정 기회를 주는 등 정보의 정확성이 보장되게 하는 장치를 둬야한다.
    -> 예를들어 제2금융권에서 허락없이 신용조회를 여러번 하면 신용등급 떨어지는거 좀 위험함

AI는 빅데이터 잘 분석하는 도구일 뿐

  • 개념은 오래가지만 테크닉은 맨날 바뀜
  • 딥 뉴럴 네트워크는 데이터 사이언스 도구일 뿐 자체가 AI 가 되려면 추가적인 인사이트가 필요하다.
  • 예를들어 자연어 처리의 Attention 개념 1930년 부터 지금까지 기계번역에 활용되고 있음
  • 이걸 수학적인 확률로 이해해 버리면 150억개의 floating point값을 어떻게 배치하는 문제로 볼 수 있음
  • 어떤건 영상 인식, 어떤건 음성인식
  • 결국 AI는 최적화된 상태를 분석 (regression)
  • AI에 대한 환상을 갖지말고 많은 문제를 푸는 효과적인 방법론을 배우는 시간이라고 생각해라.
  • 스타트렉의 통역 시스템 등은 지금은 다 실현 되었으나 기계적으로 실현되었을 뿐 개념적으로 실현되지 않았다.
  • 광학센서로 부터 수집되는 데이터를 분석하는 알고리즘은 Lambertian 반사를 이용하는데 유리같은 경우는 잘 인식 안되서 ClearGrasp 라는 걸 개발
    투명 물체의 심도, 표면의 굴곡, 모서리 등에 관한 극 사실적인 렌더링 데이터를 5만개 이상 새로 만듦
    이젠 유리같은거 뒤에 물체도 인식하게 만듬
    -> 특정 목적, 분야에 따라 학습시킬려면 새로운 데이터가 필요하다.
  • 신약을 개발할 때 1억2천만개 이상의 분자를 보유한 ZINC 15 로 불리는 온라인 DB 에 적용해 슈퍼버그를 박멸할 수 있는 약 8개를 찾음 (항생재가 될 수 있는 가능성이 제일 크면서 기존 항생제와 다른 것)
  • 자동 글쓰기 AI GPT-2는 15억개의 파라미터를 가진 대규모 번역기간 언어모델
    800만개 텍스트의 데이터 세트를 통해 학습
  • GPT-3는 시, 그래프, 이력서, 이메일, 짧은 에세이 등을 다 만들 수 있다.
    -> 문제는 1750억개의 파라미터가 있고 4990억건의 단어가 입력되어 350기가의 GPU 메모리가 들었다. 
    -> 학교 뒤에는 송아지 보단 생활이 많이 나온다. 이런걸 만드는데 142억원이 들었따.
    -> 그래서 GPT-3 이후부터는 오픈소스를 포기했다.
  • AI는 이제는 돈싸움이다. 

상식이 없는 인공지능

  • 텐센트에서 만든 인공지능에 너의 중국몽이 뭐냐고 묻자 미국 이민가는거지라고 답변
  • AI 가 인간의 기본지식, 상식없이 만들 수 없다.

모라벡의 역설

  • 고도의 유전자 분석은 AI 가 잘함
  • 장난감 가지고 노는건 AI 보다 사람이 잘함

인공지능이 인기있는 이유

  • 심층학습(deep learning)을 비롯한 기계학습 기술의 발달
  • 인터넷을 중심으로 컴퓨터가 접근할 수 있는 빅데이터가 존재
  • 하드웨어 기술의 발전으로 저렴하게 슈퍼컴퓨터급 자원 사용이 가능
  • 정보 과부하에 따른 사회적 요구 증대
  • 많은 우수한 인공지능 관련 공개 소프트웨어 (Tensorflow 등)

 

728x90

댓글