인터넷상의 여러 활동을 하면서 느낀 점 몇자 적어봅니다
요즘 세상의 변화가 굉장하다 라는것을 체감 못하시는분들도 많은것 같읍니다 기술적인 노하우 관련 부분만 하더라도 예전에는 국내 최우수 교수님팀이나 대기업 관련 연구소 정도가 세부 노하우 정보의 접근이 가능한 시대가 있었는데 요즘 세상은 인터넷 이나 유투브상에 기술 노하우 정보 관련 내용의 검색이 시행착오를 겪으면 기술 노하우 파악이 어느정도 가능한 시대에 살고 있읍니다 돈 이 되는 세부 노하우 정보를 얻으려면 그 만큼 시간투자를 하는 노력 없이는 돈이 되는 정보 획득은 불가능합니다
딥러닝 노하우도 요즘에는 시간을 투자해서 꾸준히 노력을 하면 돈이 되는 정보획득도 가능하다고 저는 판단하거든요
시대가 이렇게 변하다 보니 소기업은 돈벌이하기가 예전보다 몇배 더 어려워졌고 자금력이 확보된 대기업은 검증된 결과물을 돈 주고 구매해서 필요한 기술을 확보하는 세상에 살고 있읍니다 저도 돈 없는 소기업 이다보니 기술개발을 본격적으로 하려해도 다 자금확보 없이는 불가능한게 자본주의 사회의 특징 이구요
 
저는 나이가 58세 이고 인공지능 개발자로 취업준비하는 상황이 아닙니다 글로벌 대기업이 주요 이슈로 진행하는 사업의 세부 설계안이 준비가 되었기에 이것을 개발하는것의 주요 노하우 파악이 되었다는것을 말씀드리는것 입니다
저는 그동안 사회생활 30년동안 대기업 연구소도 경험이 있고 주로 IT 펌웨어 개발 처리를 25년 진행했읍니다 제가 목표로 하는 딥러닝 사업 아이템 개발에 필수 개발장비 요건을 말씀드린것 입니다
다시한번 말씀드리지만 작은규모 프로토결과물로 취업 준비하는 내용이 아님을 밝힘니다

현재 대기업이 메타버스 사업 아이템으로 딥러닝 투자한 스타트업도 제 사업 아이템과 아주 유사합니다

저는 대기업도 관심을 갖고 투자하는 딥러닝 사업 아이템을 분석했고 글로벌 대기업도 관심을 갖을 아이템으로 사업을 하려다보니 엔비디아 딥러닝 서버도 필요한것 입니다 페이스북이나 테슬라 같은곳의 딥러닝 부분의 진행 이슈를 살펴서 이쪽 관련 아이템으로 사업을 하고자 하거든요
 
투자사에게 제가 믿음을 주는게 롯또 당첨 만큼이나 어려워서 저도 계속 노력중 입니다

딥러닝도 정보가 넘치는 시대인것은 다들 공감하실텐데요 작은 프로토타입 결과물 제시도 중요한데 저는 실제 상용화시 필요한 정밀도가 높은 데이터셋 확보 내지 구축이 더 중요할것 같읍니다 제가 분석했었던 음성인식 분야도 죤스홉킨스대학의 KALDI 툴을 사용해서 음성인식에 필요한 정밀 데이터셋을 만드는게 한 10년전부터 가능해지면서 대기업들도 음성인식 정확도 향상이 가능해지지 않았나 싶읍니다 세월이 지난 지금도 KALDI 툴이 널리 사용되고 있는게 현실 이니까요

 

제가 왜 이런 글을 올렸냐하면 해외논문중 대표적으로 엔비디아에서 발표된 StyleGAN 논문의 경우 딥러닝 학습 개발환경이 기본적으로 미국 엔비디아의 딥러닝 서버 DGX-1 이 기본 개발환경 이라고 논문에 명기되 있읍니다 DGX-1 이 구매비용이 미화 15 만불 입니다 그렇다고 사설 딥러닝 서버로도 불가능한것은 아닌데 사설 딥러닝 서버의 파워부도 인텔 제온 서버 파워를 그대로 사용할수가 없거든요 왜냐하면 엔비디아 A100 GPU 카드를 4 장 실장하면 이를 구동시키기 위해서는 큰 전력을 공급해줘야 하고 딥러닝 서버가 열이 많이 나니까 쿨링 시스템 까지도 고려해야 하고 딥러닝 서버 파이썬 개발환경을 멀티 GPU 개발환경에서 동작 가능하도록 개발환경 구축도 만만치 않거든요  딥러닝 사업화를 내 아이디어로 모델 구축 도 다 자금확보가 기본 이거든요  저는 지금확보를 위해 투자사에 어떻게 해야 신뢰를 얻어볼까를 심각히 고민중 입니다

 
저의 경우
딥러닝 논문 그동안 한 2년에 걸쳐 300 편의 논문을 세부 검토했읍니다 논문을 세부 검토를 300 편 하다보니 오즘 뜨는 분야인 메타버스 3D 캐릭터를 생성해서 애니메이션 작업까지의 노하우가 요즘 중요시 되고 있구요 이런 설계안을 딥러닝 모델을 어떤 구조로 설계해야 사업성이 있을지 세부 설계 안까지 구체적으로 준비했구요 대기업 투자사에 이와 관련해서 제안을 드려보고 있읍니다 제가 장비 탓을 하는게 아니라 이런 저의 준비된 세부 설계 안을 테스트하려면 최소한의 개발환경이 엔비디아 DGX-1 정도가 필요하다는 검토가 되서 이런 글도 올리는것 입니다
저의 경우 요즘 딥러닝 모델의 세부 설계안이 마련중 인 사업화 아이템이 메타버스의 3D 아바타 구현을 딥러닝으로 구현하는것을 준비하고 있고 2D to 3D 모델 맵핑 도 딥러닝으로 구현 제시했던 논문들에서 딥러닝 모델의 세부 사업화 설계 안을 마련도 해 논 상태 입니다
 
 
저의 경우, 한 2 년전부터 딥러닝 음성인식 논문분석을 진행했읍니다 ... 지도학습부터 자기지도 학습까지 살펴봤읍니다 ... 지도학습이나 자기지도 학습이나 학습데이터셋의 데이터 갯수가 일정 이상으로 충분치 않으면 상용 수준으로 만족스런 성능이 가능하다는 논문은 제가 찾지 못한것 같읍니다 ... 대기업들의 음성인식도 예전 논문의 기법의 파악없이는 성능내기가 어려운 구조더군요 ... Kaldi 라는 툴의 도움으로 음성인식 딥러닝 모델을 학습시키거든요 ,,, 이게 보통의 딥러닝 모델의 구조이구요 ... Kaldi 툴도 HMM-GMM 딥러닝 모델로 구현된것인데 ... 죤스홉킨스 대학에서 오래전에 발표한 기술인데 아직도 이것의 도움이 필요 하거든요 ... Kaldi 라는 툴의 경우 Fundamental Frequency F0 의 값도 출력해 주구요 ... 이 F0 값은 음성인식 논문에서 유용하게 설계에 적용됩니다 ... 저는 그래서 최근까지 음성인식의 롤 모델인 구조가 CTC-Transformer Model 이었구요 ... 이것은 디코더부에 빔 써치 알고리즘등을 적용해서 특정 데이터셋으로 학습 테스트시 에러율이 약 8 % 까지 성능이 나온다고 논문에 있는것 같읍니다 ... 음성인식도 CTC-Transformer Model 로 구현관련 세부 메커니즘을 이했구요 ... 상용 수준으로 성능을 내려면 음향모델과 언어모델 둘 다 구현이 필요할것 같읍니다 ...언어모델의 경우 GPT-3 가 SOTA 성능을 냈다 하니 이게 기본 동작 구조가 Transformer Model 이 기본 동작 구조이고 언어가 어떤 메커니즘으로 번역 처리가 동작한다는것을 이해했읍니다 ... 음향모델 같은 경우도 CTC-Transformer Model 로 음성과 음소의 얼라인 처리를 어떤 방식으로 처리하는지도 이해했읍니다 ....
 
 
DMBTEC 장석원
010-3350-6509
sayhi7@daum.net  
 
의견 있으시면 메일로 송부 부탁드립니다 ....
 
 
 
 
 
 

 

요즘 세상살이 고민 적어봤읍니다

+ Recent posts