강의 출처:https://www.youtube.com/watch?v=cYfKQ6YG9Qo&t=797s강의 소개 지난 5년간 대규모 언어 모델(LLMs)의 발전으로, 시각적 정보를 포함한 다른 감각적 모달리티를 LLM과 통합하려는 시도가 활발히 진행되고 있다. 이번 강연은 LLM의 기본 개념을 시작으로, 지난 1년간 학계에서의 멀티모달 모델과 구조적 업데이트 시도, CogVLM(17B 파라미터의 강력한 오픈소스 멀티모달 모델)과 CogAgent(GUI 및 OCR 작업용으로 설계된 모델)를 소개한다. 마지막으로 멀티모달 모델의 응용과 학계에서의 가능성 있는 연구 방향을 논의한다.Why are we here?: LLM introduction and historyBERT momentbetter self-sup..