딥러닝 사업 준비 ... 음성인식은 어느 정도 노하우 확보 성공 ... 그 이후의 노력들 ...

파란새 2022. 5. 9. 05:55

2022. 5. 9. 05:55

딥러닝 분야는 대기업에서 경력이 있거나 아니면 딥러닝 석박사가 아니면 참 이쪽한다라고 애기하는게 부담이 간다 ...

그동안 2 년여 기간동안 딥러닝 공부를 마음먹고 공부하고자 했던 분야가 음성인식 분야였었고 이것을 공부하면서 StyleGAN 분야 공부도 같이 했었다. 음성인식 분야는 처음에는 음향모델쪽 공부를 주로하는데 시간을 보냈다 ... Mel-Spectrogram 설계 구조라든가 ... Cepstrum 설계 구조 ... Fundamental Frequency F0 ... 뭐 이런것들 공부를 했다 ... 이런것들 공부하면서 죤스홉킨스 대학에서 오래전 개발했던 딥러닝 모델인 HMM-GMM 모델 구조인 Kaldi Tool 쪽도 살펴보지 않을수 없었다 ... 죤스홉킨스 대학에서 오래전 개발했던 딥러닝 모델인 HMM-GMM 모델인 Kaldi 에서는 언어모델 훈련을 위해 SRILM 툴을 이용한다 ... SRILM은 주로 음성 인식, 통계 태그 지정 및 세분화, 기계 번역에 사용하기 위한 LM(통계 언어 모델)을 빌드하고 적용하기 위한 툴이다. 죤스홉킨스 대학에서 오래전 개발했던 딥러닝 모델인 HMM-GMM 모델 구조와 언어모델 훈련 관련해서 SRILM 툴 ... 뭐 이런것들의 이해가 필요했었다 ... 이런것들을 살피면서 음성인식 국내외 논문을 굉장히 여러편을 살펴봤다 ... 그러다 보니 처음에 시작한 음향모델쪽 공부만으로는 부족함을 느꼈다 ... 그래서 언어모델 공부를 시작했다 ... 그래서 살펴본게 Word2vec의 모델인데 Continuous Bag Of Word(CBOW)와 Skip-Gram 기법들을 살펴봤다 ... 해외 논문에서는 언어모델 디코딩부 관련해서는 빔써치 알고리즘 이야기가 꽤 있었다 ... 그리고 살펴본게 n-gram 모델인데 ... 자연어 처리, 정보 검색 등에서 활용이 되는 시퀀스 데이터 표현 방식이다. 자연어 처리에서는 문서 또는 문장을 벡터로 변환해 자연어 처리의 여러 응용 분야에 활용할 수 있다 그동안 약 2 년여 기간동안 이런것의 여러 논문들을 깊이있게 살펴봤다 ... 이제 위와 같이 수많은 논문(여러 이슈들)을 살펴 보면서 음성인식 에러율 8 % 의 설계 노하우를 터득하는데 성공할수 있었다 ...

그동안 저는 StyleGAN 기술 분야도 세세히 살펴 봤읍니다 ... 엔비디아에서 개발한 StyleGAN 세부 기술 분석을 했었읍니다 ... 요즘 제가 관심을 가지는 분야중 하나가 2D 이미지를 3D 모델 로 맵핑시키는 이런 딥러닝 모델에 관심이 많읍니다 ... 2D 이미지를 3D 모델 로 맵핑시키는 이런 딥러닝 모델을 세심히 국내외 논문을 살펴봤는데 ... Shape Embedding 기술로 3D Shapes 표현을 어떻게 Reconstruction 할지 ... 3D Texture 의 질감을 살려서 딥러닝 모델을 구현하려면 딥러닝 모델의 설계 구조가 어떻게 설계되고 있는가 ... 뭐 이런것들을 관심을 가지고 분석중 입니다 ... 이렇게 2D 이미지를 3D 모델 로 맵핑시키는 이런 딥러닝 모델을 분석하다가 깨닭은게 있는데 ... StyleGAN 기술에서 얼굴의 스타일을 변형해서 생성하기 위해 사용되는 Affine Transform 같은 Graphic Engine 기술이 필요한데 엔비디아는 이런 Graphic Engine의 원천기술이 있었기에 StyleGAN 기술을 발표할수 있었다고 봅니다 ... 다시 2D 이미지를 3D 모델 로 맵핑시키는 이런 딥러닝 모델에서 설계시 필요한게 3D Graphic Engine 기술이 역시나 여기에서도 필요합니다 ... 엔비디아는 Kaolin 이라는 2D 이미지를 3D 모델 로 맵핑 가능한 라이브러리 노하우를 이미 발표했읍니다 ... 저는 이제 2D 이미지를 3D 모델 로 맵핑시키는 이런 딥러닝 모델 논문 분석을 시작한지 한 두달 되갑니다 ...

삼성전자 Tizen 에서는 이미 2014 년 정도 부터 DALI 3D UI Engine 기술을 적용해서 3D UI 를 개발한것 같읍니다 ...

DALI 3D UI Engine 기술 이나 엔비디아는 Kaolin 이라는 2D 이미지를 3D 모델 로 맵핑 가능한 라이브러리의 세부 분석이 가능하다면 2D 이미지를 3D 모델 로 맵핑 구현이 가능할것 같읍니다 ...

관심있으신 분들 연락 주셔도 됩니다 ...

DMBTEC 장석원 드림

sayhi7@daum.net

010 3350 6509

저작자표시 비영리 변경금지

'Kernel Porting > Linux' 카테고리의 다른 글

IT 제품 펌웨어 개발용역 - DMBTEC 소개 입니다 ... (0)	2022.05.21
메타버스/자율주행차 2D 모델 과 3D 모델 변환 메커니즘 관련 사업화 준비 상황 .... (0)	2022.05.15
IT 제품의 HW 및 펌웨어 용역개발 관련 .... (0)	2022.05.02
그동안 딥러닝 사업화 제안서 투자사에 제출관련 제 뒷 이야기 건 (0)	2022.04.28
DMBTEC 자율주행차 카메라 영상의 오브젝트 분류 인식 사업화 - 관련 대기업 혹은 인큐베이팅 투자사 검토 요청 건 ... (0)	2022.04.26

GPT-3 LLM 세부 알고리즘 분석 일인 AI 스타트업 딥네트워크