스마일게이트 산업 기능 요원 - seumailgeiteu san-eob gineung yowon

AlphaTensor

[가상생명연구팀 전동준] 지난 10월 5일, DeepMind는 과학 학술지인 Nature지에 AlphaTensor가 행렬 연산의 최적화 방법을 찾아냈다고 발표하였습니다.

Show

BigCode

[분석지능개발팀 이현정] Huggingface와 ServiceNow Reserch가 함께 지난 27일 새롭게 런칭한 프로젝트 BigCode에 대해 소개하고자 합니다. BigCode는 Code를 위한 대규모 언어모델의…

Die or Upload?

[AI센터 한대웅] 2033년 미래의 지구는 AI로 제어되는 자율주행 자동차로 모든 교통수단이 안전하게 통제되고 있어 교통사고로 죽을 가능성은 0%에 가깝다. 20대…

코딩없이 MobileFaceSwap 을 체험해보자!

[생성지능개발팀 정택현] ㅤ MobileFaceSwap은 AAAI 2022에서 공개된 오픈소스 Face swap 모델로, 기존 Simswap, FaceShifter 모델을 Distillation 기반의 경량화를 적용하여 연산 속도의…

진짜 같은 가짜 데이터 – 대체되는건 나?

[생성지능개발팀 정우석] 진부한 이야기이지만 AI 연구에 있어서 데이터의 중요성은 아무리 강조해도 지나치지 않습니다. 수많은 학교, 연구기관이나 기업에서는 앞다퉈 기술력 자랑과 연구…

코딩없이 YOLOv7을 체험해보자!

[생성지능개발팀 정택현] ㅤ 최근 YOLOv7 알고리즘이 공개되며 컴퓨터 비전 및 각종 관련 커뮤니티에서 큰 주목을 받고 있습니다. 논문에 따르면, YOLOv7은…

언리얼 엔진과 AI 의 만남

[생성지능개발팀 강민지] AI 연구가 지속적으로 이루어지고 있는 요즘, 사람들은 AI기술의 능력이 인간을 대체하거나 혹은 뛰어날 수도 있다고 여기며 이 기술과의…

인공지능은 우리를 어디까지 대체할 것인가?

[생성지능개발팀 유희조] 문명의 발전은 항상 사람을 더 편하게 만들어왔습니다만, 동시에 사람이 필요했던 업무를 꾸준히 대체해왔습니다. ‘기계가 노동자의 일거리를 줄인다’ 라는…

BlenderBot 3

[가상인간연구팀 황준선] Facebook의 Meta AI는 BlenderBot[1]이라는 대화형 인공지능 시스템을 개발하고 있다. BlenderBot2는 해당 포스트에서 다룬적이 있다. BlenderBot은 성격, 공감, 지식과…

Transformers United

[AI Lab 김무성]  스탠포드의 CS25 : Transformers United 강좌 동영상이 최근 공개 되었습니다. [1] 강좌[2] 자체는 작년 하반기입니다만, 그간 슬라이드만…

VR and Physics Engine

[AI센터 권은지] 현실과 가상의 경계를 좁히는 키워드는 시공간 데이터 베이스와 디지털 트윈(Digital Twin)을 비롯하여 다양하게 존재합니다. 그 과정에서 3D 모델링…

소 잡는 칼로 닭 잘 잡아보기

[가상인간연구팀 전동준] 언어 모델(Language Model, LM)은 단어나 문장을 확률적으로 예측하는 모델입니다. 통계적으로 다음에 등장할 단어들을 모델링하는 전통적인 방식에서 최근에는 딥러닝…

LaMDa is Not Alive

[생성지능개발팀 한현준] 얼마 전 구글의 연구원인 Blake Lemoine은 언어 모델인 LaMDa가 자의식이 존재한다라는 주장을 펼쳤으나, 구글에서는 자의식의 증거를 찾을 수…

Tesla Bot : Optimus

[분석지능개발팀 이현정] 지난 21일 테슬라는 카타르 경제 포럼에서 인공지능 휴머노이드 로봇 코드명 ‘옵티머스’를 3개월 내 선보일 예정이라고 밝혔습니다. 옵티머스는 인간이…

AI 플랫폼과 MLOps의 발전

[분석지능개발팀 송지현 연구원] McKinsey Global Institute에 따르면 “2025년까지 가치 생산 워크플로에 AI를 완전히 통합하는 기업이 2030년에 세계 경제를 지배하고 현금…

상상을 현실로 그리는 AI

[가상인간연구팀 심홍매] 텍스트, 이미지, 음성 데이터 등 다양한 형태(modality)로 이루어진 데이터 특징을 효과적으로 학습하기 위한 방법을 Multimodal learning이라고 하는데요, 최근…

한국어 tokenizer

[생성지능개발팀 김성현]우리는 한국어 문서를 볼 때, 그 대상을 의미를 가지는 단위로 쪼게서 이해할 수 있습니다.예를 들어, “스마일게이트” 의 경우, “스마일”…

TPU에서 HuggingFace model 학습하기

[가상인간연구팀 황준선] TPU 소개 TPU(Tensor Processing Unit)는 Google에서 발표한 텐서 연산에 특화된 하드웨어입니다. TPU는 인공지능 모델을 학습시킬 때 필요한 행렬…

Bring your own Desk

[AI센터 권은지] 비대면 소통 방식이 일상화되며 직장인의 근무 형태는 변화하였습니다. 원격 근무는 이미 하나의 표준으로 자리 잡게 되었으며 많은 기업이…

프로그래밍하는 AI : AlphaCode

[분석지능개발팀 박효주] DeepMind가 경쟁 프로그래밍 대회에서 사용 가능한 수준의 프로그래밍이 가능한 AlphaCode를 공개했습니다. AlphaCode는 Transformer 기반 언어 모델을 사용하여 대량의…

포즈 추정 모델과 아바타

[생성지능개발팀 한현준] 포즈 추정 모델의 발전 RGB 이미지만으로 포즈를 인식하는 모델은 지난날에 비해 비약적인 발전을 했습니다. 인식의 정확도는 많이 높아졌으며,…

노코드 AI가 작성한 코드을 검증하는 AI : JIGSAW

[분석지능개발팀 이현정] 마이크로소프트(Microsoft)가 노코드(no-code) 기반의 AI가 작성한 프로그램 코드를 검사하는 도구 ‘직소(Jigsaw)’를 발표했습니다. 노코드란 간단한 사용자 인터페이스 방식의 틀을 이용해서…

What Is Edge AI?

[분석지능개발팀 임창대] Edge AI는 Edge computing 에서 시작된 것으로 사용자의 디바이스에서 인공지능 알고리즘을 처리하는 것을 말합니다. IoT, 웨어러블 디바이스, 자율주행과…

수학 정리로부터 밝혀지는 AI의 한계

[행동지능연구팀 최현우]어렸을 때 읽었던 책 중에 아직까지도 기억에 남는 소설 중 하나인 <사람들이 모두 미쳤다고 말한 외로운 수학 천재 이야기>에서는,…

Paradigm Shift On AI

[AI센터 한대웅] “패러다임 시프트” 라는 단어의 사전적인 의미는 어떤 문제나 현상을 바라보는 전제나 접근 방법에 대한 근본적인 변화 혹은 인식의…

[생성지능개발팀 유희조] AI는 근 10년간 다양한 업종에서 영향을 끼치고 있으며 과거의 매우 단순한 반복작업을 대체하는 것에서 그치지 않고 이미 예술에…

현실로 다가오는 가상세계 CES 2022

[서비스개발팀 권은지] 올해 CES(Consumer Electronics Show) 2022는 미국 라스베이거스에서 2년 만에 오프라인으로 재개되었습니다. 한국정보통신기술산업협회(KiCTA)에 따르면 전 세계에서 2200여곳의 기업이 참여하였으며…

보고 듣는 것으로 말을 이해하는 AI

[서비스개발팀 한현준] 서론 사람들은 AI 스피커에서 난청 장애가 있는 사람들을 위한 도구 개발에 이르기까지 광범위한 음성 인식 및 이해 작업에…

크리에이터를 위한 플랫폼

[서비스개발팀 한현준] 최근 엔비디아에서 AI 워크플로, 3D 디자인 협업 및 시뮬레이션 플랫폼 ‘Omniverse’를 RTX 제품을 사용하는 개인 크리에이터와 아티스트에게 무료로…

기억은 어디에 저장되는가?

[융합연구팀 전동준] “어제 홈스파 3편 보고 왔어요” 라고 누군가가 말한다면 여러가지 반응이 나올 수 있습니다. ‘홈스파’가 마블에서 제작한 스파이더맨 영화…

Semantic Segmentation

[서비스개발팀 권은지] 영상 분할(Semantic Segmentation) 기술은 컴퓨터 비전 분야에서 가장 핵심적인 요소 중 하나이며, 이미지 내의 픽셀별로 해당 픽셀이 어디에…

감정, 그리고 기본 감정

[융합연구팀 최현우] 여러분은 감정이라는 단어를 들으면 어떤 것들이 떠오르시나요? 예전부터 희로애락 (기쁨, 분노, 슬픔, 즐거움) 이라는 개념이 있었고, 감정 연구에…

Ego4D

[서비스개발팀 이현정] 페이스북이 지난 달인 10월, 차세대 AI 프로젝트인 1인칭 시점 AI 장기 프로젝트  ‘Ego4D’를 발표했습니다. 이 프로젝트를 위해 9개국…

Online 랜선 여행

[서비스개발팀 권은지] 랜선 여행이란 인터넷 연결선을 뜻하는 랜(Lan), 선(Cable) 그리고 여행(Trip)을 결합하여 인터넷으로 여행을 한다는 의미의 신조어입니다. 최근 국가 간…

Meta의 Metaverse Vision

[선행연구팀 이정우] 28일 페이스북은 사명을 ‘메타’로 변경하면서, 메타버스의 성공이 회사의 목표임을 다시 한번 강하게 보여줬습니다. 단순히 계획이 아님을 보여주듯이, 메타의…

Green AI

[융합연구팀 황준선] AI 기술은 비약적으로 발전해왔고, 우리는 많은 편의성을 제공 받고 있다. 심지어 이 AI 기술 분야 중에선 전력량을 예측하거나…

사람 같은 AI, AI 같은 사람

[융합연구팀 전동준] 우리가 일반적으로 생각했었던 “AI 같은”의 의미는 사람과 대비되는 기계의 느낌이 강했습니다. 감정이 느껴지지 않고, 말투도 딱딱한 사람들을 “AI…

Chatbot’s troubles

[서비스개발팀 한현준] 챗봇의 고민 OpenAI의 GPT-3, Google의 Meena, Facebook의 Blender 등 대형 자연어 처리 AI 모델은 인간의 언어를 실제 사람과…

현자의 돌

[융합연구팀 김무성] 최근 스탠포드의 연구자들이 “On the Opportunities and Risks of Foundation Models”라는 논문을 냈습니다 [1]. 여기서 Foundation Model이란 GPT-3와…

검색 시스템의 고도화와 NLP의 활용

[융합연구팀 송지현] Deep Natural Language Processing for LinkedIn Search Systems 최근 챗봇 시스템의 구조화와 최적화 설계가 얼마나 효과적으로 적용하는지를 Rasa…

인공지능을 위한 인공지능 AutoML

[서비스개발팀 한현준] What is AutoML AutoML이란 말 그대로 Auto + ML 즉, 기계 학습 모델 개발 작업을 자동화 하는 프로세스입니다.…

Instruction tuning – FLAN

[융합연구팀 심홍매] NLP 분야에서 2020년 Top 10 키워드를 뽑는다면 GPT-3(Language Models are Few shot Learners) 당연히 순위 내에 있을 겁니다.…

화물차 군집주행

[서비스개발팀 이현정]   국토교통부는 지난 9일 화물차 군집주행 기술개발 최종 성과발표회를 열었다. 발표내용은 군집주행 기술에 대한 전반적 설명, V2X기반 군집주행…

Virtual Influencer Trend

[서비스개발팀 권은지] 인플루언서(Influencer)의 사전적 정의는 타인에게 영향력을 주는 사람입니다. 오늘날 1인 미디어 채널의 발달로 흥미로운 콘텐츠 업로드를 통해 누구나 크리에이터가…

Translatotron 2

[선행연구팀 유희조] 번역은 딥러닝 붐이 일던 초기부터 연구되던 주제입니다. 지금은 어느 분야에서든 사용되는 attention 역시 최초는 Seq2Seq 구조가 갖는 문제를…

라이다없는 자율주행 가능할까?

[서비스개발팀 김병인] 테슬라가 최근 북미 지역에서 판매하는 모델3와 모델Y에서 레이더(Radar)를 제거하고 출시하기로 했습니다. 이미 라이다(LiDAR)도 배제했기 때문에 오직 차에 달린…

현실로 다가오는 인공지능, Tesla AI Day

[선행연구팀 이정우] 2019년 진행되었던 Tesla Autonomy Day에서는 ‘자율주행’기술에 초점을 맞춰 기술과 방향성이 소개되었습니다. 올해는 Tesla AI Day라는 이름답게 ‘인공지능’이라는 기술…

코딩을 도와주는 인공지능, Copilot

[선행연구팀 김성현] 자연어의 큰 반향을 일으킨 causal language model이 (e.g. GPT-3) 이제는 자연어를 넘어서 프로그래밍 언어까지 적용됐습니다! 🤗 지난 6월,…

사람다운 AI

[서비스개발팀 조예지] 우리는 보통 사람과 같은 AI를 정의할 때 인간처럼 행동하고 인간처럼 생각하는 AI라고 말하고 있습니다. 각 사람들이 기대하는 AI의…

AGI를 목표로 하는 강화학습

[선행연구팀 최현우] 지난 5월 딥마인드는 ‘Reward is Enough’라는 제목의 강화학습 논문을 발표했습니다. 저자들은 ‘포만감을 높이려는 다람쥐’와 ‘청결을 유지하려는 주방로봇’의 예시를…

관리형 머신러닝 플랫폼 Vertex AI

[서비스개발팀 임창대] 지난 5월 구글의 개발자 컨퍼런스 IO 에서 ‘버텍스 AI(Vertex AI)’ 가 공개 됐습니다. 버텍스 AI는 Google Cloud 의…

내 손을 금손으로

[서비스개발팀 조예지] NFT X Metaverse 올해 3월부터 테크 및 투자 키워드로 가장 화두가 되고 있는 것은 NFT X Metaverse 입니다. …

MLP Singer

[선행연구팀 유희조] TTS(text-to-speech)는 임의의 텍스트를 넣었을 때 해당 텍스트를 특정한 목소리의 음성으로 변환하여 산출하는 기술입니다. Google이 Tacotron 시리즈를 발표한 이후…

Tensorflow VS Pytorch

[서비스개발팀 한현준] 서론 Tensorflow와 PyTorch는 기계 학습에 있어서 가장 인기 있는 라이브러리들입니다. AI 서비스를 개발하는 개발자나 모델을 연구하는 연구자들은 초기에…

흠없는 마음에 비추는 영원의 빛

[선행연구팀 김무성] 이터널 선샤인(Eternal sunshine) 미셀 공드리 감독의 영화 ‘이터널 선샤인’은, 짐 캐리와 케이트 윈슬렛이 커플로 나오는 기억과 이별에 대한…

현실 문제 해결을 위한 강화학습 환경

[선행연구팀 이정우] 오랜 시간 동안 강화학습 알고리즘들의 성능을 검증하기 위해 게임 (바둑, 장기, 아타리 게임 등)을 사용해 왔습니다. 알고리즘의 발전에…

오픈소스 GPT-3 모델, GPT-J-6B 공개

[선행연구팀 김성현] 오픈라이센스로 GPT-3 모델을 공개하던 Eleuther AI팀에서 최근 6B (약 60억)의 파라미터를 가지는 새로운 GPT-3 모델을 공개했습니다. (링크)Mesh-tensorflow와 JAX를…

Unity ML-Agents v2.0

[서비스개발팀 전동준] Unity에서 공개한 ML-Agents는 게임 환경의 가상 캐릭터를 만드는 오픈소스 툴 입니다. 게임 환경을 만들고 환경에서 작동할 수 있는…

시계열 데이터 분석_TadGAN

[선행연구팀 송지현] MIT 연구팀이 개발한 TadGAN 알고리즘은 시계열 데이터를 분석하여 이상탐지를 하는데에 있어 기존에 알려진 모델들에 비해 좋은 성능을 내는…

LaMDA – 구글의 대화 언어 모델

[서비스개발팀 김병인] 최근 진행된 구글의 최신기술을 선보이는 행사인 구글 I/O 2021에서는 안드로이드, 웹, 인공지능, 크롬등 다양한 기술과 서비스, 플랫폼 서비스를…

데이터 전문 기업의 가치

[서비스개발팀 전동준] 코로나19로 인해 가속화된 기업들의 디지털 트랜스포메이션(Digital Transformation)은 데이터의 가치를 계속해서 상승 시키고 있습니다. 전문 IT 기업 뿐만 아니라…

언어모델에서의 자연어 생성 전략

[선행연구팀 김성현] 최신 언어 모델은 대규모의 코퍼스를 이용해 학습합니다. 특히, GPT-2, BART, T5 모델과 같이 디코더 신경망을활용한 모델의 경우, 다음…

일상을 기록하는 Lifelogging

[서비스개발팀 권은지] 라이프로깅(Lifelogging)이란 라이프(Life)와 로그(Log)가 합쳐진 단어이며 1945년 미국의 국가 과학기술연구소의 소장 바네바 부시가 ‘Atlantic Monthly’에 기고한 ‘As We May…

GPT-3 기반의 게임 NPC 데모

10년전 게임과 현재의 게임을 비교해 보면, 특히 그래픽 측면에서 많은 차이가 있습니다. 예를 들면, 4K 이상의 해상도, 정교한 그래픽 텍스춰,…

소프트웨어정책연구소 메타버스 보고서

가상 환경 내에서 현실과 이어진 아바타들이 서로 상호 작용하는 모든 형태를 의미하는 메타버스가 최근 다양한 업계의 관심을 끌고 있습니다. 특히…

GPT-Neo – 오픈소스 GPT-3 프로젝트

OpenAI의 GPT-3는 175B에 달하는 파라미터 수를 가지는 거대 언어 모델입니다. GPT-3가 보여주는 놀라운 결과물들에도 불구하고 오픈소스로 공개되어 있지 않기 때문에…

ImageNet과 개인정보보호

ImageNet은 AI 분야 연구자라면 모르는 사람이 없을 정도로 AI 기술 발전에 큰 영향을 준 데이터셋입니다. 많은 수의 이미지들과 그에 대한…

Avatarify – 화상통신에 실시간 아바타 추가

Avatarify는 Zoom, Teams, Hangout, Skype등 다양한 화상통신 프로그램에 실시간 아바타 애니메이션 기능을 추가해주는 프로그램으로, 오픈소스로 공개되어 있습니다. 화상통신 프로그램의 카메라…

자연어와 음성 인식 프레임워크의 통합 트렌드

통합 자연어 처리 패키지로 유명한 HuggingFace에 음성 인식 기능이 추가되었습니다. 다음은 관련 링크입니다: 구체적으로 Facebook이 개발한 Wav2Vec 2.0이 추가되었는데, Wav2Vec…

Ubuntu Dialog Corpus

인간이 가상 에이전트와 자연스러운 느낌의 대화를 할 수 있는 대화 시스템을 구축하는 것은 자연어 처리에서 어려운 작업이며 많은 지속적인 연구의…

Digital Twin + AI

Digital Twin이란 현실 세계에서 실체를 가지고 있는 사물이나 환경을 가상 공간으로 그대로 옮겨놓고, 둘 사이를 연동시키는 것을 의미합니다. 간단히 표현하자면…

초거대 모델을 위한 메모리 최적화 기술

딥러닝 모델의 파라미터수가 크게 증가함에 따라 학습에 필요한 메모리도 함께 늘어나고 있습니다. OpenAI의 GPT-2는 1.5B개의 파라미터들로 구성되며 Google의 mT5도 13B에…

AI 트렌드와 게임 적용 사례

AI 트렌드 및 게임 업체들의 AI 기술 적용 사례들을 정리한 보고서입니다. 대략적 목차는 다음과 같습니다: AI is… AI 마켓과 주요…

한국어 욕설 데이터

조준희님이 수집하여 라벨링한 한국어 욕설 데이터 세트를 공유합니다. 여러 커뮤니티에서 수집된 것으로서, 실세계 데이터에 대한 평가용으로 적합한 것 같습니다. 아래는…

문단으로부터 질문을 생성하는 기술

흔히 Q&A task라고 부르는 문제는 질문과 대답을 pair로 기록한 데이터 세트로부터 학습하여 질문을 던졌을 때 적절한 대답이 나오도록 하는 것을…

MELD: 멀티모달 감성 데이터

Multimodal EmotionLines Dataset(MELD)은 감성 라벨링이 되어 있는 대화 데이터 세트인 EmotionLines를 멀티모달로 확장한 것입니다. MELD는 EmotionLines에서 사용할 수 있는 것과…

STATE OF AI REPORT 2020

최근 AI 분야에서 있었던 여러 변화들을 분석한 리포트인 State of AI Report 2020입니다. 이 보고서는 AI 투자자 Nathan Benaich 와…

디비전2의 NPC AI 개선 방향

디비전2는 매시브 엔터테인먼트가 개발하고 유비소프트가 퍼블리싱한 온라인 액션 RPG로서 천연두가 유행하는 워싱턴 DC를 배경으로 하고 있습니다. 게이머는 정부 요원과 함께…

Unity ArtEngine

Unity의 ArtEngine은 AI 기반의 기술을 이용해서 고품질의 그래픽 리소스들을 쉽게 만들 수 있도록 도와주는 도구입니다. Unity에서는 이러한 기술들을 AI-assisted artistry라고…

스마트폰과 비교한 AI 마켓 규모

IDC 예측 보고서에 따르면 2020년 AI 마켓 규모는 약 157B$로 예측된다고 합니다. 물론 이 수치는 AI와 관련된 다양한 업종, 즉…

UneeQ의 디지털 휴먼 플랫폼 출시

UneeQ가 Digital Human Creator라는 디지털 휴먼 플랫폼을 출시했습니다. 서비스 가격이 다소 부담스럽긴 하지만, free trial을 제공하고 있어서 간단한 테스트를 해…

블루투스 기반의 코로나19 위험군 판별 기술

AI 기술을 이용한 코로나19 관련 연구들이 다수 등장하고 있습니다. 아래에 공유한 논문은 Nature지에 게재된 Fraunhofer HHI의 연구로서, Bluetooth Low Energy(BLE)로부터…

HuggingFace Datasets 1.0

NLP Dataset과 Evaluation metric을 쉽게 사용할 수 있게 해 주는 Huggingface Datasets 라이브러리의 첫 번째 stable version 1.0이 공개되었습니다. 현재…

Wav2Lip: 음성으로부터 입술 모양 생성

LipGAN은 음성 신호를 이용하여 얼굴 이미지의 입술 모양을 생성하는 기술인데, 실제로 동영상에 적용해보니 visual artifact나 움직임의 자연성 측면에서 다소 아쉬움이…

국립국어원의 AI 학습용 한국어 데이터

국립국어원이 인공지능 학습용 한국어 자료를 대규모(13종 18억 어절)로 공개했습니다. 저작권 문제를 해결하여 구축한 것이며 ‘모두의 말뭉치’ 사이트에서 온라인 약정서를 작성,…

Gran Turismo를 위한 슈퍼휴먼 AI

링크는 Sony와 ETH Zurich에서 발표한 논문에 대한 리뷰글인데, 유명 자동차 게임인 Gran Turismo를 대상으로 reinforcement learning을 적용해서 인간 기록을 넘는…

GPT-3 사례들과 minGPT 프로젝트

일상 대화 연구에서 두각을 나타내고 있는 스캐터랩(https://scatterlab.co.kr/) 핑퐁팀 블로그에 있는 글인데 GPT-3 사례에 대해서 스토리있게 잘 정리된 것 같아서 공유합니다.…

이말년 웹툰 스타일 생성 코드

bryandlee님 github에 deep generative model을 이용한 image translation 적용 결과와, 침착맨 이말년 웹툰으로 만든 관련 연구가 있어서 공유합니다. 연구 제목도…

AR Glass 컨셉영상과 상호작용의 필요성

Iskander Utebayev라는 디자이너가 만든 AR Glass 컨셉 영상입니다. 컨셉영상인 것을 감안하더라도 상당히 Fancy하고 일단 구현만 된다면 스마트기기를 사용하는 Human-Machine Interface를…

Google MixNet과 구현 친화도

일반적으로 이미지에서 사용되는 convolution은 3D operation입니다. (KxKxC; K=커널크기, C=채널수) 이것을 KxKx1의 2D operation 복수개로 분할하여 적용한 후, 채널 방향으로 1x1xC…

음성으로 몸 동작 생성하기

LipGan은 음성 신호로부터 입 모양을 생성하는 연구입니다. 가상 캐릭터의 입 애니메이션을 만들어내는데 유용하게 사용될 수 있는 기술이지만, 실제로 적용해 보면…

H.266/VVC 표준과 딥러닝 기술

(ISO MPEG) VVC 혹은 (ITU-T) H.266이라는 이름을 갖는 신규 영상 코덱의 국제 표준안이 릴리즈 되었습니다. 관련 기사 공유합니다. 딥러닝 기술이…

FastSpeech2 Open Source

Tacotron2, MelGan, FastSpeech등 여러 최신 TTS 모델을 지원하는 Tensorflow 2 기반의 오픈소스인 TensorflowTTS가 드디어 Microsoft FastSpeech2를 지원하기 시작했습니다. FastSpeech2는 Transformer…

표정과 몸동작을 반영하는 감정인식

영상이나 이미지로부터 감정을 인식하는 시도들은 다양하게 있어 왔습니다. 클라우드 API에서도 제공되고 SNS에서도 화제가 될 만큼 (기쁨 95% 등등) 많이 알려진…

GAN 기반 Image Compression

동영상 압축 분야에서도 무어의 법칙(트랜지스터의 수가 2년에 2배씩 증가)과 같은 것이 있는데, 1993년 MPEG-1, 2003년 MPEG-4/AVC (H.264), 2013년 MPEG-H/HEVC (H.265)로…

Text-to-SQL: 자연어를 SQL로 변환

Text-to-SQL은 자연어를 SQL로 자동 변환하는 Task입니다. 하단에 공유한 글은 Microsoft 소속의 Aerin Kim이 작성한 글인데, Text-to-SQL에 대해서 잘 정리되어 있습니다.…

알고리즘 혐오현상과 설명 가능한 AI

예측 분야에서, Algorithm Aversion(알고리즘 혐오)는 알고리즘이 실수할 수 있다는 것을 인지하게 되면 인간의 예측보다 우수하더라도 쓰지 않으려는 경향이 있다는 의미로…

자율주행차 기술 소개 및 사회적 합의

조금 비약이 있기는 하지만 AI 알고리즘에 물리적 장치를 추가한 것을 지능형 로봇이라고 본다면, 아마도 향후 가장 많이 보급될 지능형 로봇은…

IBM의 감성 로봇 Nao-mi

IBM의 감성 로봇 나오미(Nao-mi)에 대한 영상입니다. [내용 요약] 어렵게 쌓은 탑을 무너뜨리라고 요구하는 사람과 하기 싫다고 말하는 로봇. 계속적인 요구에…

Facebook의 Codec Avatar

“Codec Avatar”라는 이름으로 진행되는 Facebook의 디지털 휴먼 프로젝트의 데모 영상이 공개되었습니다. 2019년 영상에 비해서 추가된 부분으로,아바타 외형이 좀 더 사실적으로…

인간의 기억 특성별 신경망 기술

최근 재미있게 읽은 인간의 능력과 신경망의 관계에 대한 글입니다. 글에도 나오지만 인간의 뇌와 신경망의 동작 방식은 유사한 구석이 있지만 같을…

Rosebud.AI의 가상 모델 합성 기술

Rosebud.ai(https://rosebud.ai/)는 마케팅 캠페인을 위해 만들어진 이미지에 가상의 모델 얼굴을 생성하여 합성하는 기술로 마케팅 시장을 타게팅하고 있습니다.  만들어진 결과물은 꽤 자연스럽고,…

TikTok의 Comic Filter

TikTok이 사람 얼굴을 애니메이션 캐릭터로 실시간 변환해주는 필터를 추가했습니다. Selfie2Anime도 그렇고 김준호님이 만든 UGatIT도 그렇고 참고할 결과들이 있긴 하지만 TikTok의…