한 일주일전에 WebRTC 미디어서버로 공연 방송 송수신 기술자문이 가능한지 문의메일을 받았읍니다 다들 접ㆍ다 더 잘 아시겠지만 고액 인건비 지출이 필요한 능력자분을 모시는게 우선 이거든요 이건 대기업도 마찬가지 입니다 기본적으로 이런것의 개발은 기본적으로 프로토타입 개발을 능력자를 모셔서 진행해야 하고 상용화를 위한 양산대응 개발도 출중한 능력자분이 필요합니다 저 같은 경우만해도 클라우드 서비스로 개발하기위한 세부설계 안을 준비해놨는데 이 설계안도 확장성 있게 구현하기 위해서는 제가 준비한 기본적인 세부 설계 안 만으로는 완벽한 대응이 어렵습니다 확장성 있게 대응을 하려면 바로 위에서 언급한 이쪽으로 분석과 구현 경험이 반드시 필요할수 밖에 없읍니다 이렇게 처리하려면 모든게 다 비용지출이 상당히 필요하게 됩니다 클라우드 서비스 RABBITMQ 같은 경우도 기본설계까지는 저도 분석이 가능했는데 확장성을 고려한 상용화 설계는 저도 분석 및 구현에 시간이 훨씬 더 필요할수 밖에 없는게 현실 입니다
이련 저의 검토 분석 내용을 토대로 저에게 관련한 기술자문 문의주실 분 있으시면 아래의 연락처로 문의 주십시요
요즘 세상의 변화가 굉장하다 라는것을 체감 못하시는분들도 많은것 같읍니다 기술적인 노하우 관련 부분만 하더라도 예전에는 국내 최우수 교수님팀이나 대기업 관련 연구소 정도가 세부 노하우 정보의 접근이 가능한 시대가 있었는데 요즘 세상은 인터넷 이나 유투브상에 기술 노하우 정보 관련 내용의 검색이 시행착오를 겪으면 기술 노하우 파악이 어느정도 가능한 시대에 살고 있읍니다 돈 이 되는 세부 노하우 정보를 얻으려면 그 만큼 시간투자를 하는 노력 없이는 돈이 되는 정보 획득은 불가능합니다
딥러닝 노하우도 요즘에는 시간을 투자해서 꾸준히 노력을 하면 돈이 되는 정보획득도 가능하다고 저는 판단하거든요
시대가 이렇게 변하다 보니 소기업은 돈벌이하기가 예전보다 몇배 더 어려워졌고 자금력이 확보된 대기업은 검증된 결과물을 돈 주고 구매해서 필요한 기술을 확보하는 세상에 살고 있읍니다 저도 돈 없는 소기업 이다보니 기술개발을 본격적으로 하려해도 다 자금확보 없이는 불가능한게 자본주의 사회의 특징 이구요
저는 나이가 58세 이고 인공지능 개발자로 취업준비하는 상황이 아닙니다 글로벌 대기업이 주요 이슈로 진행하는 사업의 세부 설계안이 준비가 되었기에 이것을 개발하는것의 주요 노하우 파악이 되었다는것을 말씀드리는것 입니다
저는 그동안 사회생활 30년동안 대기업 연구소도 경험이 있고 주로 IT 펌웨어 개발 처리를 25년 진행했읍니다 제가 목표로 하는 딥러닝 사업 아이템 개발에 필수 개발장비 요건을 말씀드린것 입니다
다시한번 말씀드리지만 작은규모 프로토결과물로 취업 준비하는 내용이 아님을 밝힘니다
현재 대기업이 메타버스 사업 아이템으로 딥러닝 투자한 스타트업도 제 사업 아이템과 아주 유사합니다
저는 대기업도 관심을 갖고 투자하는 딥러닝 사업 아이템을 분석했고 글로벌 대기업도 관심을 갖을 아이템으로 사업을 하려다보니 엔비디아 딥러닝 서버도 필요한것 입니다 페이스북이나 테슬라 같은곳의 딥러닝 부분의 진행 이슈를 살펴서 이쪽 관련 아이템으로 사업을 하고자 하거든요
투자사에게 제가 믿음을 주는게 롯또 당첨 만큼이나 어려워서 저도 계속 노력중 입니다
딥러닝도 정보가 넘치는 시대인것은 다들 공감하실텐데요 작은 프로토타입 결과물 제시도 중요한데 저는 실제 상용화시 필요한 정밀도가 높은 데이터셋 확보 내지 구축이 더 중요할것 같읍니다 제가 분석했었던 음성인식 분야도 죤스홉킨스대학의 KALDI 툴을 사용해서 음성인식에 필요한 정밀 데이터셋을 만드는게 한 10년전부터 가능해지면서 대기업들도 음성인식 정확도 향상이 가능해지지 않았나 싶읍니다 세월이 지난 지금도 KALDI 툴이 널리 사용되고 있는게 현실 이니까요
제가 왜 이런 글을 올렸냐하면 해외논문중 대표적으로 엔비디아에서 발표된 StyleGAN 논문의 경우 딥러닝 학습 개발환경이 기본적으로 미국 엔비디아의 딥러닝 서버 DGX-1 이 기본 개발환경 이라고 논문에 명기되 있읍니다 DGX-1 이 구매비용이 미화 15 만불 입니다 그렇다고 사설 딥러닝 서버로도 불가능한것은 아닌데 사설 딥러닝 서버의 파워부도 인텔 제온 서버 파워를 그대로 사용할수가 없거든요 왜냐하면 엔비디아 A100 GPU 카드를 4 장 실장하면 이를 구동시키기 위해서는 큰 전력을 공급해줘야 하고 딥러닝 서버가 열이 많이 나니까 쿨링 시스템 까지도 고려해야 하고 딥러닝 서버 파이썬 개발환경을 멀티 GPU 개발환경에서 동작 가능하도록 개발환경 구축도 만만치 않거든요 딥러닝 사업화를 내 아이디어로 모델 구축 도 다 자금확보가 기본 이거든요 저는 지금확보를 위해 투자사에 어떻게 해야 신뢰를 얻어볼까를 심각히 고민중 입니다
저의 경우
딥러닝 논문 그동안 한 2년에 걸쳐 300 편의 논문을 세부 검토했읍니다 논문을 세부 검토를 300 편 하다보니 오즘 뜨는 분야인 메타버스 3D 캐릭터를 생성해서 애니메이션 작업까지의 노하우가 요즘 중요시 되고 있구요 이런 설계안을 딥러닝 모델을 어떤 구조로 설계해야 사업성이 있을지 세부 설계 안까지 구체적으로 준비했구요 대기업 투자사에 이와 관련해서 제안을 드려보고 있읍니다 제가 장비 탓을 하는게 아니라 이런 저의 준비된 세부 설계 안을 테스트하려면 최소한의 개발환경이 엔비디아 DGX-1 정도가 필요하다는 검토가 되서 이런 글도 올리는것 입니다
저의 경우 요즘 딥러닝 모델의 세부 설계안이 마련중 인 사업화 아이템이 메타버스의 3D 아바타 구현을 딥러닝으로 구현하는것을 준비하고 있고 2D to 3D 모델 맵핑 도 딥러닝으로 구현 제시했던 논문들에서 딥러닝 모델의 세부 사업화 설계 안을 마련도 해 논 상태 입니다
저의 경우, 한 2 년전부터 딥러닝 음성인식 논문분석을 진행했읍니다 ... 지도학습부터 자기지도 학습까지 살펴봤읍니다 ... 지도학습이나 자기지도 학습이나 학습데이터셋의 데이터 갯수가 일정 이상으로 충분치 않으면 상용 수준으로 만족스런 성능이 가능하다는 논문은 제가 찾지 못한것 같읍니다 ... 대기업들의 음성인식도 예전 논문의 기법의 파악없이는 성능내기가 어려운 구조더군요 ... Kaldi 라는 툴의 도움으로 음성인식 딥러닝 모델을 학습시키거든요 ,,, 이게 보통의 딥러닝 모델의 구조이구요 ... Kaldi 툴도 HMM-GMM 딥러닝 모델로 구현된것인데 ... 죤스홉킨스 대학에서 오래전에 발표한 기술인데 아직도 이것의 도움이 필요 하거든요 ... Kaldi 라는 툴의 경우 Fundamental Frequency F0 의 값도 출력해 주구요 ... 이 F0 값은 음성인식 논문에서 유용하게 설계에 적용됩니다 ... 저는 그래서 최근까지 음성인식의 롤 모델인 구조가 CTC-Transformer Model 이었구요 ... 이것은 디코더부에 빔 써치 알고리즘등을 적용해서 특정 데이터셋으로 학습 테스트시 에러율이 약 8 % 까지 성능이 나온다고 논문에 있는것 같읍니다 ... 음성인식도 CTC-Transformer Model 로 구현관련 세부 메커니즘을 이했구요 ... 상용 수준으로 성능을 내려면 음향모델과 언어모델 둘 다 구현이 필요할것 같읍니다 ...언어모델의 경우 GPT-3 가 SOTA 성능을 냈다 하니 이게 기본 동작 구조가 Transformer Model 이 기본 동작 구조이고 언어가 어떤 메커니즘으로 번역 처리가 동작한다는것을 이해했읍니다 ... 음향모델 같은 경우도 CTC-Transformer Model 로 음성과 음소의 얼라인 처리를 어떤 방식으로 처리하는지도 이해했읍니다 ....
저는 최근에 논문을 거의 300 편 가까이 검토분석하면서 3D 모델링 관련해서 3D 캐릭터를 생성해서 이 3D 캐릭터로 애니메이션을 만들려면 그동안 10 년 이상의 세월동안 국내 대기업 게임회사들은 어떤 방식으로 사업화를 접근했을까 부터 궁금해졌읍니다 ... 저는 맨처음에는 딥러닝으로 3D Reconstructing 쪽 논문에 관심을 갖고 살펴봤구요 ... 이쪽을 세부적으로 분석하다 보니 엔비디아의 3D Graphic 엔진 설계 구조 같은것의 분석 필요를 느꼈읍니다 ... 삼성전자 무선사업부 연구소에서는 이미 10 여년전 엔비디아의 3D Graphic 엔진을 적용해서 3D 어플리케이션을 설계하는 작업들이 이미 진행되고 있었는데 그동안 저는 관심을 안 가져서 몰랐었구요 ... 요즘 뜨는 메타버스 이슈가 3D 캐릭터를 어떤식으로 설계해서 이것으로 애니메이션을 어떻게 만들지가 가장 핵심 이슈인것 같읍니다 ... 이미 대기업 게임 회사에서는 이런 작업을 Unity 엔진 혹은 언리얼 엔진을 적용해서 상용화 작업을 이미 한 10 년전쯤부터 이미 해오신것 같읍니다 ... 그렇다면 이쪽으로 사업화시 필수적인 검토 이슈는 무었일까 부터 생각했구요 ... 제가 분석한 바로는 Unity 엔진 혹은 언리얼 엔진 같은 경우 그 유명한 3D 툴인 Maya 나 3DMAX 같은 3D CAD Modeling TOOL 을 사용해서 3D 캐릭터를 만드는 과정이 필요합니다 ... 이것의 결과파일을 임포트해서 Unity 엔진 혹은 언리얼 엔진을 적용해서 3D 캐릭터 애니메이션 작업의 처리가 되는것으로 파악했읍니다 ... 여기에서 놓치지 말아야 할 이슈는 Unity 엔진 혹은 언리얼 엔진을 적용해서 3D 캐릭터 애니메이션 작업의 처리가 된 3D 캐릭터 애니메이션을 저장하는 3D 파일은 어떤 구조로 저장되는지 까지도 분석할 필요가 있읍니다 ... 3D 캐릭터 애니메이션을 저장하는 3D 파일은 어떤 구조로 저장되는지가 파악이 되면 Unity 엔진 혹은 언리얼 엔진 같은 개발환경을 설계하는 작업의 기본처리가 되는것 이라서 저는 이쪽으로 검토를 했었읍니다 ... 말씀을 장황하게 드렸는데 여기서 핵심은 이 모든것이 엔비디아의 3D 그래픽 엔진에 모든것이 다 포함되 있다는것 입니다 ... 그래서 엔비디아가 대단한것 이구요 ... 이런것들 관련해서 대기업 투자사에 제안서도 넣어봤었는데 그쪽에서는 이미 투자한 스타트업과 약정 때문에 저와는 사업화 진행이 어렵겠다는 답변을 들었구요 ... 이렇게 이런 글을 올리는 이유는 혹시 저의 이런 세부 구상에 관심을 갖고 협력해 주실 업체가 있을지가 궁금해서 이런 글을 올렸읍니다 ... 업계 관계자분들과 이런저런 이야기도 나눠보고 싶읍니다 ...
그동안 저는 StyleGAN 기술 분야도 세세히 살펴 봤읍니다 ... 엔비디아에서 개발한 StyleGAN 세부 기술 분석을 했었읍니다 ... 요즘 제가 관심을 가지는 분야중 하나가 2D 이미지를 3D 모델 로 맵핑시키는 이런 딥러닝 모델에 관심이 많읍니다 ... 2D 이미지를 3D 모델 로 맵핑시키는 이런 딥러닝 모델을 세심히 국내외 논문을 살펴봤는데 ... Shape Embedding 기술로 3D Shapes 표현을 어떻게 Reconstruction 할지 ... 3D Texture 의 질감을 살려서 딥러닝 모델을 구현하려면 딥러닝 모델의 설계 구조가 어떻게 설계되고 있는가 ... 뭐 이런것들을 관심을 가지고 분석중 입니다 ... 이렇게 2D 이미지를 3D 모델 로 맵핑시키는 이런 딥러닝 모델을 분석하다가 깨닭은게 있는데 ... StyleGAN 기술에서 얼굴의 스타일을 변형해서 생성하기 위해 사용되는 Affine Transform 같은 Graphic Engine 기술이 필요한데 엔비디아는 이런 Graphic Engine의 원천기술이 있었기에 StyleGAN 기술을 발표할수 있었다고 봅니다 ... 다시 2D 이미지를 3D 모델 로 맵핑시키는 이런 딥러닝 모델에서 설계시 필요한게 3D Graphic Engine 기술이 역시나 여기에서도 필요합니다 ... 엔비디아는 Kaolin 이라는 2D 이미지를 3D 모델 로 맵핑 가능한 라이브러리 노하우를 이미 발표했읍니다 ...
자율주행차의 3D 오브젝트 인식 이라던가 메타버스 플랫폼 설계시 3D 아바타 설계가 어떤식으로 딥러닝 모델이 설계되야 하는지를 파악했읍니다 ... 2D 이미지를 3D 모델로 Reconstruct 해서 3D Shape 를 만드는 딥러닝 모델의 설계 구조를 분석했구요 ... 간략히 설명드리자면 엔비디아의 3D Graphic Engine 의 알고리즘 설계 수식의 이해를 통해 3D Graphic Engine 수식으로 오규멘테이션 처리한 3D Shape 의 예측 데이터를 얻을수 있고, 이 예측데이터의 손실값을 최소화하는 딥러닝 가중치값을 학습 루프를 실행시켜서 얻을수 있다고 판단 합니다 ...
더 자세한것은 제 사업 노하우이기 때문에 이 정도만 이야기 하겠읍니다 ....
이런 기술들은 자율주행차 혹은 메타버스 플랫폼 구현시 반드시 필요한 기반기술 입니다 ... 저의 경우 세부 구현 설계 안까지 준비하고 있는데 이런 저의 설계 안에 직접적으로 관심을 표명하는 기업은 만나기가 너누 어렵습니다 ... 혹시나 해서 저의 이런 딥러닝 세부 설계 안에 관심이 있으셔서 저는 비록 소기업이지만 공동으로 사업을 펼쳐보실 기업이 있으신지 궁금 합니다 ...
투자사는 기본적으로 동작하는 결과물 확인이 기본인것은 저두 알구요
단지 딥러닝 논문을 한 300편 살피다보니 딥러닝 논문의 세부 노하우 파악에 성공했고 이것으로 협력할 기업 좀 더 솔찍이는 투자를 받고 싶은것 입니다 딥러닝 소스 분석능력도 어느정도 터득했고 딥러닝 논문도 300편 보다보니 통찰력이 자연스레 생겼기에 이런 말씀도 드리는것 입니다
ToF 3D Image Sensor 의 동작원리가 자동차 라이다 센서에도 응용이 되고 3D Depth Image Sensor 에도 적용되는 기술 입니다 ... 3D Depth Image Sensor를 사용해서 3D Depth 이미지를 얻는 동작원리가 궁금해졌읍니다 ... 유럽의 Infinion 사와 일본의 Sony 사등이 3D Depth Image Sensor 설계 원천 기술을 가진 이스라엘 스타트업에 투자해서 원천기술을 확보한것 같읍니다 ... ToF 의 동작원리는 파장을 송출하면 송출한 파장이 멀리 떨어진 오브젝트에 부딪쳐서 반사되서 오는 파장이 도착하기까지 걸린 시간을 측정해서 오브젝트와의 거리를 측정하는것으로 저는 파악합니다 ... 그런데 동작원리는 이해를 했는데요 ... 3D Depth Image Sensor 를 구현하려면 오브젝트까지 거리측정을 픽셀의 해상도의 정밀도로 거리를 측정해야 하는데 ... 이를 고 정밀도로 오브젝트와의 거리를 측정하기 위해서는 고 정밀도의 A/D Converter 가 수백개 이상이 필요하게 되는데 ... 해상도가 높으면 고 정밀도의 A/D Converter 가 수천개 이상이 필요한데 동작원리 이해상으로는 이렇게 3D Depth Image Sensor 를 설계하면 동작은 가능한데 너무 고 비용으로 구현이 가능하기에 상용화 기술로는 부족하다고 생각이 되거든요 ... 송출한 파장이 멀리 떨어진 오브젝트에 부딪쳐서 반사되서 오는 파장이 도착하기까지 걸린 시간을 측정을 위해서는 고 정밀도의 A/D Converter 가 수천개 이상이 필요하기에 이것을 효율적으로 설계하려면 어떤 설계 방안이 있을지가 궁금해 집니다 ....
관심있으신 라이다 개발 기업이나 3D Depth Camera 개발 기업에서 연락주시면 감사하겠읍니다 ...
우선 제 소개를 하면 저는 현재 58 세 이고 89년에 대학원 전자공학과를 졸업했고, 98년까지 약 7 년간 대기업 연구소에서 시스템 SW 개발 일을 했었구요 ... 저는 엔지니어 경력 30 년 입니다 ... 제가 30 년을 엔지니어로 경험하면서 느끼는것은 IT 분야 개발 일꺼리라는것이 한 2 년만 지나도 새로운 기술 나온것을 추가로 시간을 내서 반드시 공부가 필요하다는것 입니다 ... 원래 IT 분야에서 엔지니어쪽으로 일을 하려면 쉼 없이 새로운 분야 공부를 게을리 하면 기술 트렌드를 따라잡기가 어렵다는 점 입니다 ... 이 정도로 세부 파악해 놓았으니 밥벌이 한 5 년은 되겠지가 통하지 않는 분야가 이 분야 인것 같읍니다 ... 고객사 요구사항에 따라 그때 그때마다 다른 고객사 요구에 따른 IT 제품 설계가 고객사 마다 다 세부 설계가 다 다르게 분석검토을 다시 할 필요있읍니다 ... 한마디로 IT 개발용역 분야 사업을 하려면 고객사 요구가 100 가지 라고 하면 이 고객사 요구에 맞는 100 가지의 IT 솔루션 기술을 다시 분석검토를 해야 한다는 점 입니다 ... 그러니 한가지 IT 제품의 솔루션 기술이 있다고 해서 고객사가 다른 요구사항으로 의뢰를 해 오면 다시 IT 솔루션 설계 기술의 재 검토 분석이 반드시 필요하게 됩니다 ...
스위스 ST 사의 STM32 CPU 로 펌웨어 개발용역 처리시에도 고객사 A 의 요구사항에 맞게 설계된것이 다른 고객사 B 의 요구사항을 설계하려면 처음부터 재설계가 필요하다는 점 입니다 ... 이렇게 고객사의 각기 다른 요구사항들 때문에 고객사 요구사항을 커스토마이징 설계하려면 거의 원천기술에 가깝게 세부 설계 구현에 대한 분석이 완벽하지 않으면 고객사의 다른 요구사항에 맞게 설계하는것이 또 다른 시행착오가 반드시 필요하게 됩니다 ...
문제는 스위스 ST 사의 STM32 CPU 로 펌웨어 개발용역 처리시 필요한 펌웨어 설계에 필요한 세부 원천기술들을 모두 확보한 개발사는 흔치 않다는 점입니다 ... 스위스 ST 사의 STM32 CPU 로 펌웨어 설계로 일등 실력이라면 STM32 CPU 가 굉장히 여러 종류가 제공되는데 이렇게 각각의 STM32 CPU 수십종의 세부 설계자료(고객사의 수백 가지 요구사항에 맞는 펌웨어 설계 방법)를 모두 파악해 둬야 하는데 이것도 말이 쉽지 쉽지 않은 일 입니다 ...
최소 한 가지 솔루션(펌웨어)을 개발하려면 몇천만원 이상의 비용 지출이 필요하기에 고객사의 여러 요구사항에 맞는 펌웨어 설계 능력을 확보해 두는게 돈 도 들어야 하고 기간도 필요할수밖에 없을것 같읍니다 ...
DMBTEC 장석원
010-3350-6509
위의 내용 읽어 보시고 IT 제품의 펌웨어 개발용역 의뢰문의 하실 분은 아래의 메일주소로 세부 개발스펙 송부 부탁드립니다 ...
그동안저는 StyleGAN 기술분야도세세히살펴봤읍니다 ... 엔비디아에서개발한 StyleGAN 세부기술분석을했었읍니다 ... 요즘제가관심을가지는분야중하나가 2D 이미지를 3D 모델로맵핑시키는이런딥러닝모델에관심이많읍니다 ... 2D 이미지를 3D 모델로맵핑시키는이런딥러닝모델을세심히국내외논문을살펴봤는데 ... Shape Embedding 기술로 3D Shapes 표현을어떻게 Reconstruction 할지 ... 3D Texture 의질감을살려서딥러닝모델을구현하려면딥러닝모델의설계구조가어떻게설계되고있는가 ... 뭐이런것들을관심을가지고분석중입니다 ... 이렇게 2D 이미지를 3D 모델로맵핑시키는이런딥러닝모델을분석하다가깨닭은게있는데 ... StyleGAN 기술에서얼굴의스타일을변형해서생성하기위해사용되는 Affine Transform 같은 Graphic Engine 기술이필요한데엔비디아는이런 Graphic Engine의원천기술이있었기에 StyleGAN 기술을발표할수있었다고봅니다 ... 다시 2D 이미지를 3D 모델로맵핑시키는이런딥러닝모델에서설계시필요한게 3D Graphic Engine 기술이역시나여기에서도필요합니다 ... 엔비디아는 Kaolin 이라는 2D 이미지를 3D 모델로맵핑가능한라이브러리노하우를이미발표했읍니다 ... 저는이제 2D 이미지를 3D 모델로맵핑시키는이런딥러닝모델논문분석을시작한지한두달되갑니다 ...
삼성전자 Tizen 에서는이미 2014 년정도부터 DALI 3D UI Engine 기술을적용해서 3D UI 를개발한것같읍니다 ...
DALI 3D UI Engine 기술이나엔비디아는 Kaolin 이라는 2D 이미지를 3D 모델로맵핑가능한라이브러리의세부분석이가능하다면 2D 이미지를 3D 모델로맵핑구현이가능할것같읍니다 ...
제가 2D 모델과 3D 모델변환메커니즘딥러닝논문분석분석한것을말씀드리면, DALI 3D UI Engine 설계기술이나엔비디아는 Kaolin 이라는 2D 이미지를 3D 모델로변환하는메커니즘이어떻게설계가된것인가를분석하고있읍니다 ... 2D 모델과 3D 모델변환메커니즘을분석하기위해서는엔비디아의 DALI 3D UI Engine 설계기술이어떠한세부알고리즘(메커니즘)으로설계가되었을까를분석하다보니카메라 SW 설계메커니즘분석도필요하고, 또그동안발표된논문들분석작업도하고있읍니다 ... Shape Embedding 기술로 3D Shapes 표현을어떻게 Reconstruction 할지 ... 3D Texture 의질감을살려서딥러닝모델을구현하려면 3 D Pose (Translation 과 Rotation) Estimation 과관련해서이미지캡쳐시사용되는카메라 SW 설계파라미터설계방안의검토분석또한필요합니다 …
2D 오브젝트의이미지와 3D CAD Models 간의하나하나의픽셀마다정확한 Alignment 를제공하는 3D 데이터셋같은것을적용하면 …. Shape Embedding 기술로 3D Shapes 표현을어떻게 Reconstruction 할지 ... 3D Texture 의질감을살려서딥러닝모델을구현이서로간의협의를거친후충분히가능하다고판단됩니다 ... Perspective-N-Point PnP 메커니즘과 Geometric Verification 알고리즘의분석작업진행중입니다 ... 결국은 2D 모델과 3D 모델변환메커니즘의원천기술의분석검토가필수입니다 ... 물론쉽게원천기술의분석이성공할것같지는않지만현재진행상황을보면추후시간투자를하면충분히성공가능하다고저는판단되서이렇게글도올리는것이구요 ... 여기서제가사업화를위해분석진행중인 2D 모델과 3D 모델변환메커니즘분석진행상황들을자세하게다말씀드리지는못하지만이제이렇게공개적으로가능성이충분하다라고말씀드릴정도로분석이진행되었읍니다 ...
제가2D 모델과 3D 모델변환메커니즘의원천기술의분석검토가된기술적인부분에서중요한부분이카메라(이미지센서)의파라미터부분, 즉카메라의켈리브레이션부분인데이것과2D 오브젝트의이미지와 3D CAD Models 간의하나하나의픽셀마다정확한 Alignment 를제공하는 3D 데이터셋같은것을적용을통해서Shape Embedding 기술로 3D Shapes 표현을어떻게 Reconstruction 할지 ... 3D Texture 의질감을살려서딥러닝모델을구현이충분히가능하다고판단합니다…
위에서언급한내용이메타버스 3D 아바타구현내지자율주행차의 3D 오브젝트탐지같은기반기술들을연구하는데가장기초가된다고생각하고요 … 저도나름어느정도준비는됬으니이런기반기술연구를문의해오시는업체(대기업혹은투자사등등)와충분한협의를거쳐협업(대기업 AI 연구소와협력) 진행을하고싶습니다 …
딥러닝 분야는 대기업에서 경력이 있거나 아니면 딥러닝 석박사가 아니면 참 이쪽한다라고 애기하는게 부담이 간다 ...
그동안 2 년여 기간동안 딥러닝 공부를 마음먹고 공부하고자 했던 분야가 음성인식 분야였었고 이것을 공부하면서 StyleGAN 분야 공부도 같이 했었다. 음성인식 분야는 처음에는 음향모델쪽 공부를 주로하는데 시간을 보냈다 ... Mel-Spectrogram 설계 구조라든가 ... Cepstrum 설계 구조 ... Fundamental Frequency F0 ... 뭐 이런것들 공부를 했다 ... 이런것들 공부하면서 죤스홉킨스 대학에서 오래전 개발했던 딥러닝 모델인 HMM-GMM 모델 구조인 Kaldi Tool 쪽도 살펴보지 않을수 없었다 ... 죤스홉킨스 대학에서 오래전 개발했던 딥러닝 모델인 HMM-GMM 모델인 Kaldi 에서는 언어모델 훈련을 위해 SRILM 툴을 이용한다 ... SRILM은 주로 음성 인식, 통계 태그 지정 및 세분화, 기계 번역에 사용하기 위한 LM(통계 언어 모델)을 빌드하고 적용하기 위한 툴이다. 죤스홉킨스 대학에서 오래전 개발했던 딥러닝 모델인 HMM-GMM 모델 구조와 언어모델 훈련 관련해서SRILM 툴 ... 뭐 이런것들의 이해가 필요했었다 ... 이런것들을 살피면서 음성인식 국내외 논문을 굉장히 여러편을 살펴봤다 ... 그러다 보니 처음에 시작한 음향모델쪽 공부만으로는 부족함을 느꼈다 ... 그래서 언어모델 공부를 시작했다 ... 그래서 살펴본게 Word2vec의 모델인데Continuous Bag Of Word(CBOW)와Skip-Gram 기법들을 살펴봤다 ... 해외 논문에서는 언어모델 디코딩부 관련해서는 빔써치 알고리즘 이야기가 꽤 있었다 ... 그리고 살펴본게 n-gram모델인데 ... 자연어 처리, 정보 검색 등에서 활용이 되는 시퀀스 데이터 표현 방식이다. 자연어 처리에서는 문서 또는 문장을 벡터로 변환해 자연어 처리의 여러 응용 분야에 활용할 수 있다 그동안 약 2 년여 기간동안 이런것의 여러 논문들을 깊이있게 살펴봤다 ... 이제 위와 같이 수많은 논문(여러 이슈들)을 살펴 보면서 음성인식 에러율 8 % 의 설계 노하우를 터득하는데 성공할수 있었다 ...
그동안 저는 StyleGAN 기술 분야도 세세히 살펴 봤읍니다 ... 엔비디아에서 개발한 StyleGAN 세부 기술 분석을 했었읍니다 ... 요즘 제가 관심을 가지는 분야중 하나가 2D 이미지를 3D 모델 로 맵핑시키는 이런 딥러닝 모델에 관심이 많읍니다 ... 2D 이미지를 3D 모델 로 맵핑시키는 이런 딥러닝 모델을 세심히 국내외 논문을 살펴봤는데 ... Shape Embedding 기술로 3D Shapes 표현을 어떻게 Reconstruction 할지 ... 3D Texture 의 질감을 살려서 딥러닝 모델을 구현하려면 딥러닝 모델의 설계 구조가 어떻게 설계되고 있는가 ... 뭐 이런것들을 관심을 가지고 분석중 입니다 ... 이렇게 2D 이미지를 3D 모델 로 맵핑시키는 이런 딥러닝 모델을 분석하다가 깨닭은게 있는데 ... StyleGAN 기술에서 얼굴의 스타일을 변형해서 생성하기 위해 사용되는 Affine Transform 같은 Graphic Engine 기술이 필요한데 엔비디아는 이런 Graphic Engine의 원천기술이 있었기에 StyleGAN 기술을 발표할수 있었다고 봅니다 ... 다시 2D 이미지를 3D 모델 로 맵핑시키는 이런 딥러닝 모델에서 설계시 필요한게 3D Graphic Engine 기술이 역시나 여기에서도 필요합니다 ... 엔비디아는 Kaolin 이라는 2D 이미지를 3D 모델 로 맵핑 가능한 라이브러리 노하우를 이미 발표했읍니다 ... 저는 이제 2D 이미지를 3D 모델 로 맵핑시키는 이런 딥러닝 모델 논문 분석을 시작한지 한 두달 되갑니다 ...
삼성전자 Tizen 에서는 이미 2014 년 정도 부터 DALI 3D UI Engine 기술을 적용해서 3D UI 를 개발한것 같읍니다 ...
DALI 3D UI Engine 기술 이나 엔비디아는 Kaolin 이라는2D 이미지를 3D 모델 로 맵핑 가능한 라이브러리의 세부 분석이 가능하다면 2D 이미지를 3D 모델 로 맵핑 구현이 가능할것 같읍니다 ...
저는 요즘 한 2 년 넘게 딥러닝 음성인식 논문을 한 150 편 세부분석하고 있읍니다 ...
IT 제품 개발 일감 처리 관련해서 제가 요근래 어떤 어려움이 있었는지를 적어보겠읍니다 ...
IT 제품 개발(HW 개발 및 펌웨어 개발 모두)을 의뢰가 있으면 검토하고 처리가 필요한 부분을 정리해서 설명드려 보겠읍니다 ... HW 개발 같은 경우도, 개발의뢰안이 들어오면 중요 부품(CPU, Memory, 각종 컨트롤러 칩셋 등등)의 납기를 확인해야 하고 보통 중요 부품의 경우, 몇개씩은 구매가 어렵고, 최소 1 K 이상의 재고 부담(보통 수천에서 억대 입니다)을 떠 안으면서 구매의 필요성이 생깁니다 ... HW 개발의 경우, 1 차 개발로 보드가 동작하는 경우는 매우 드물기 때문에 보통 2 차 혹은 3 차 수정개발이 필요하게 됩니다 ... HW 개발의 경우, 직접적으로 다 돈이 투입되서 진행되는 공정이라 1 번 수정시 1 - 2000 만원의 수정 개발비용이 필요하구요 STM32 CPU 펌웨어 개발의 경우, 스위스의 ST 사에서 카메라 인터페이스 개발 / SD Card 인터페이스 개발 / FAT32 파일 시스템 개발 / 이더넷 통신 개발 / WIFI 통신 개발 / TFT-LCD 개발 / 터치스크린 개발 의 세부 처리사항이 펌웨어 소스에 각각 구현된 소스가 스위스 ST 에서 제공합니다 ... 그런데 펌웨어 개발시 가장 골치 아픈것은 이런 세부 처리사항을 여러개를 하나로 통합해서 펌웨어 소스를 구성하면 동작을 안 하기 때문에 각각의 세부 부분의 펌웨어 소스는 동작하는데 이를 하나로 통합하면 동작시키기가 너무 힘들거든요 이런 세부 처리사항을 여러개를 하나로 통합해서 펌웨어 소스를 구성하면 동작을 안 하기 때문에 각각의 세부 부분의 펌웨어 소스를 동작시키려면 유럽 ST 사 본사 혹은 한국의 ST 대리점의 FAE 엔지니어의 기술지원이 필요한데... 입맛에 맞게 기술지원 받기가 쉽지 않읍니다 ... 이렇게 해서 보드 프로토 개발이 마무리 되면 단순 동작 확인만 된것이기에 추후 양산진행까지 처리하려면 양산개발 진행 소요기간은 프로토타입의 개발 진행 기간의 최소 2 배 이상이 필요 합니다 ...
이런 사항들 이해해 주신다고 하시는 회사라면 같이 (개발용역 일감)일해 보고 싶읍니다 ...
그동안 한 6 개월 동안딥러닝 관련해서도 세가지 안 건 관련 메일 굉장히 여러 통을 투자사 관계자에게 송부드렸읍니다 ....
하나는 음성인식 이고 하나는 2 D 이미지를 3 D 모델로 변환하는 엔비디아 라이브러리 관련이고 ...
또 하나는 자율주행차 여러대의 카메라의 오브젝트 검출 및 인식쪽 이렇게 세가지 메일을 송부드렸읍니다 ...
저도 나이가 58 세이니 투자사에서는 당연히 검증된 결과물을 요구하시는것이 당연하다고 판단하고 있었는데 ...
제가 10 여년전에 비디오코덱 설계기술인 H.264 Video Decoder SW IP 설계를 사업화 한다고 ...
2 % 결과물 성과 검증에 실패해서 결국 30 평대 아파트 한채를 날렸읍니다 ...
이렇게 아파트 한채를 날리고 나니 그동안 비디오 코덱 설계 분석만 해오다가 그게 실패하니
그 이후 10 년은 다른 기술 공부도 하면서 밥벌이도 하는 그런 돈 이 안되고 고되기만 한 일을 하다가 ...
요근래 3 년 딥러닝 공부를 통해 저도 새로운 인생을 살아보려고 딥러닝 기술 세부분석에 성공은 했는데 ...
이것도 한 3 억 들여서 (PoC 검증)결과물을 만들어내서 검증하는 작업 없이는 아무도 저의 딥러닝 기술 분석 성공을 봐 주는 사람이 없었구요 ... 10 년전 30 평대 아파트 한채를 날리다 보니 3억 들여서 (PoC 검증)결과물을 만들어 내는것 엄두도 못내는 자금여력 이었거든요
결국 제가 택한 마지막 방법은
그동안 딥러닝 관련해서도 세가지 안 건 준비한 세부 내용을 제 인터넷 블로그에 공개해서 문의해 오시는 기업과 협의를 해보려고 하거든요
더구나 요즘은 코로나 때문에 사람 만나기도 조심스러워서 더욱 힘들구요 ...
정부과제 3 억짜리 제안서를 제출하려면 제가 최소 수천만원이 준비되 있어야 과제신청이 가능해서 위에서 말씀드린 이유로 이것도 못 하고 있읍니다 ...
저도 그동안 딥러닝 음성인식 논문을 한 150 편 분석해서 에러율 8 % 의 성능 구현이 가능한 기술력 확보에 성공했읍니다 ... 그런데 음성인식으로 투자유치를 처음해보는지라 한 2 년전부터 딥러닝 음성인식 논문 분석을 했었는데 ... 그동안 시행착오를 겪으면서 에러율 8 % 의 성능 구현이 가능한 기술력 확보에 성공할수 있었읍니다 ... 지금도 음성인식으로 인큐베이팅 투자유치를 시도하고 있구요 ... 요즘 핫한 이슈가 자율주행차쪽의 AI 개발이라서 자율주행차 AI 의 가장 기본이 카메라 영상의 오브젝트 분류 및 인식 이더라구요 ... 그동안 논문분석을 한 6 개월 이상 진행했었구요 ... 딥러닝 Image Classification 과 Semantic Segmentation 기법을 세부적으로 분석하는데 성공했고 이 두가지 기술을 응용해서 자율주행차 오브젝트 분류 인식을 사업화 하고자 세부 기술력 확보에 성공했읍니다 ....
그동안 음성인식 분석도 한 2 년하면서 자율주행차 카메라 영상의 오브젝트 분류 인식를 위한 딥러닝 Image Classification 과 Semantic Segmentation 기법도 한 반년 이상 세부분석을 빡시게 하다보니 세부 노하우 파악도 되더라구요 ...
여기에 나머지 기술적인 부분은 다 적지는 못하구요 ...
자율주행차 카메라 영상의 오브젝트 분류 인식 사업화 관련해서 - 관련 대기업 혹은 인큐베이팅 투자사의 검토를 요청드립니다 ...
제가 Janus 미디어 서버를 기반으로 대용량 화상회의 구현을 위한 미디어 데이터의 실시간 송수신 처리 이슈를 고민한지 거의 2 년이 다 되갑니다 ... 저의 경우 오픈소스 Janus 서버를 설계한 이탈리아 개발자들의 설계 구조를 일단은 그대로 유지하면서 대용량 화상회의 구현을 처리하려고 합니다 ... 저의 사업화 세부 구상의 핵심을 말씀드려 보겠읍니다 ...
대용량 화상회의 구현을 위한 미디어 데이터의 실시간 송수신 처리가 Janus 서버의 소스에서는 기본적으로 HTTP 1.1 통신으로 구현되 있읍니다 ... 이 설계구조를 대용량 화상회의 구현을 위해서 Janus 서버에서는 RabbitMQ 라는 클라우드 서비스를 사용해서 메시지 큐 통신 방식으로 구현해서 최소 1000 명 이상의 화상회의 가입자가 화상회의를 처리할수 있도록 기본 개념 설계를 Janus 서버에 구현해 놓았읍니다 ... RabbitMQ 라는 클라우드 서비스를 사용한 화상회의 개념 설계는 Janus 서버에서 5 명 정도가 회의할수 있는 그 정도의 구현을 Janus 서버에 도입해서 구현되 있읍니다 ... 그래서 이 RabbitMQ 라는 클라우드 서비스를 사용한 화상회의 설계를 대용량(수천명의 미디어 데이터 송수신 실시간 처리)으로 확장해서 설계하려면 RabbitMQ 라는 클라우드 서비스의 메시지 큐 통신 방식의 세부 동작 구조를 이해하는것이 필수 입니다 ...
저는 RabbitMQ 라는 클라우드 서비스의 메시지 큐 통신 방식의 세부 동작 구조를 이해하는데 성공했고, 이 RabbitMQ 라는 클라우드 서비스의 메시지 큐 통신 방식이 커스토마이징 개발시에는 대용량 화상회의 구현때 RabbitMQ 소스의 세부 설계가 어떤 방식으로 처리되는지 이해하는데 성공했읍니다 ...
정리해서 말씀드리자면, 메시지 큐 통신 방식의 RabbitMQ 라는 클라우드 서비스를 사용한 화상회의 설계를 대용량으로 확장해서 설계 작업을 커스토마이징 하는것의 화상회의 개발팀의 개발 리더로 역할 혹은 컨설팅 전문가로서의 역할을 맡는것이 가능 합니다 ...
딥러닝 음성인식으로 논문분석을 본격적으로 한지는 약 2 년이 넘어 갑니다 ... 음성인식으로 새로운 이슈가 뭐가 있는지를 고민하다보니 딥러닝의 여러 분야를 살펴보게 되었읍니다 ... 음성관련해서는 FastSpeech, Tacotron, Transformer, Attention, Wav2Vec 부분의 관련된 논문을 주로 살펴봤읍니다 ... GAN 분야도 메타버스 관련해서 이슈가 있는지를 보기위해 관심있게 살펴 보는데 StyleGAN 의 세부 기술분석을 진행했읍니다 ... StyleGAN 관련해서는 그동안 발표됬던 이슈 말고 새 이슈가 뭐가 있을지를 파악하기 위해 StyleGAN 기술의 세부 메커니즘을 분석했읍니다 ... 특히 메타버스 관련해서는 2 D 이미지를 3 D 이미지로 맵핑하는 기술인 UV Mapping 관련해서 관심있게 보고 있읍니다 ... 2 D 이미지를 3 D 이미지로 맵핑하는 기술이 OpenGL ES 의 API 를 적용하면 구현할수 있는데 이와 관련 고민이 많읍니다 ... 이와 관련해서 사업 아이디어가 있기는 하거든요 ... 그동안 약 2 년간은 딥러닝 음성인식 논문 분석을 주로 했던것이 논문에서 말하고자 하는 이슈가 있는데 그동안 학술지에 발표됬던 이슈중에서 개선했을때 글로벌 대기업이 관심을 갖을 그런 이슈꺼리가 되는 논문을 세부 분석했었읍니다 ... 논문분석이 이제는 딥러닝 음성인식 학습이 처리되는 세부 구조를 거의 분석했구요 ... 음성인식을 구현하려면 세부 메커니즘이 최소 한 10 가지는 필요한데, 제가 관심을 가지는 논문은 이런것들을 세부 분석 처리를 했읍니다 ... 그동안 음성인식 논문 분석으로 학습 모델을 구성하는 알고리즘들 분석도 되었고, 딥러닝 모델을 학습시키는 메커니즘 분석도 되었읍니다 ... 제가 분석한 결과를 가지고 대기업 AI 담당 이사님과도 의견교환을 한 7 번 했었는데, 성능이 개선됬다는 결과물의 검증작업이 필요하다는 의견을 주셨구요 ... 그래서 깃허브 사이트의 글로벌 대기업의 딥러닝 참조소스를 다운로드해서 분석 검토를 진행했었읍니다 ... 딥러닝 학습 모델의 소스가 알고리즘 네트웍의 설계는 어떤 구조로 소스가 설계되 있는지와 학습이 처리되는것은 딥러닝 소스에서 어떻게 구현되 있은지를 세밀하게 살펴 봤읍니다 ... 주로 살펴 본 딥러닝 참조소스는 구글의 Transformer 모델 관련 참조소스의 세부 설계구조가 어떻게 설계되 있는지 살펴봤고, Python API, Pytorch API, Keras API 등이 어떻게 적용되서 설계되 있는지를 세세히 살펴 봤읍니다 ... 제가 아직 살펴보지 않은것은 딥러닝 서버의 개발환경 셋팅을 하는 세세한 처리절차 및 방법에 대해 아직 세부 검토를 해보지 않았읍니다 ...
저의 이런 그동안의 딥러닝 기술 검토 분석 및 구현을 위한 딥러닝 소스 분석 능력 ... 등등을 검토하실때, 소규모 투자 검토가 가능하신 투자사가 있을지 궁금 합니다 ...
저의 경우, 소액 투자로도 깃허브 사이트의 딥러닝 소스의 성능 개선 작업이 가능하고, 단지 아직 딥러닝으로 개발 적용 경험은 아직 없으니, 관련해서 깃허브 사이트의 딥러닝 소스의 성능 개선 결과물을 내기까지 조금 기간을 조금 더 주시면 가능할것 같읍니다 ... 저는 만약 제 관심 논문관련 깃허브 사이트의 딥러닝 소스의 성능 개선을 진행한다면 관련해서 해외특허까지 염두에 두고 진행할 계획입니다 ... 관심있는 투자사 관계자께서는 아래의 연락처로 연락 부탁드립니다 ... 감사합니다 ...
저는 딥러닝 분야중 음성인식 / 음성합성 구현관련해서 국내외 논문분석을 한 2 년 진행했읍니다 ... 딥러닝으로 음성인식을 구현하려면 음성 데이터를 딥러닝으로 어떻게 세부적으로 처리하는지 이해하는것이 쉽지 않았읍니다 ... 다중 화자 인식을 구현하려면 음성 데이터를 딥러닝으로 어떤 기법을 적용해서 이를 구현하는지 메커니즘의 핵심은 어떤 방법으로 처리가 이루어지는지 뭐 이런것들을 알려고 그동안 논문분석을 한 70 - 80 편 정도 한것 같읍니다 ... 메타버스 시스템 개발시에도 마찬가지라고 생각합니다 ... 저는 메타버스 구현시 응용 가능한 기술인 StyleGAN 기술이나 CycleGAN 기술이 최종 판단시 어떤한 동작 메커니즘으로 처리가 이루어지는지 그런것들 분석을 국내외 논문 분석을 통해서 나름대로 파악에 성공했읍니다 ... 딥러닝으로 아바타 동영상을 만들려면 아바타로 만들 사람의 영상 데이터도 필요하고 또한 아바다로 만들기 위해서는 아바타의 동작 특성을 표현 가능한 아바타 영상의 영상 데이터 자료도 필요 합니다 ...
딥러닝 기술을 사용치 않고 3 D 아바타 캐릭터를 만들려면, UV Mapping 기술이 필요 합니다 .... UV 매핑(UV mapping)은 2 차원 그림을 3 차원 모델로 만드는 3 차원 모델링 프로세스 입니다. 딥러닝으로 3 D 아바타 캐릭터를 만들려면 3 D 스캔한 학습데이터가 필요할것 같읍니다 .. 3 D 스캔한 학습데이터를 확보하는것도 상당한 비용이 필요할것 같읍니다 ... 3 D 스캔한 학습데이터가 있어야 2 D 이미지를 3 D 스캔한 학습데이터와 맵핑되게 학습시켜서 3 D 아바타 캐릭터를 생성 하는것이 가능할것 같읍니다 ...
아바타 영상을 딥러닝으로 개발해서 상용화 수준으로 결과를 내려면 딥러닝 서버도 처리용량이 이를 감당할수 있어야 할것 같읍니다 ... 사업계획서 준비도 같이 하려고 합니다 ...
로라통신은 로라통신 디바이스단 설계 기술 + 로라통신 게이트웨이단 설계 기술 + 로라통신 네트웍 서버 설계 기술 이렇게 이루어져 있읍니다 ... 로라통신은 클래스 A 통신 처리 방법과 절차가 로라 귝제 규겨문서에 규정되 있고 SEMTECH 사에서 이 국제 규격을 기준으로 해서 SOC 반도체 설계 상용화를 했읍니다 ... 로라 국제 규격문서에는 CLASS A 통신 규격만 규정되 있는게 아니고 보안인증처리를 CLASS A 통신 처리를 하면서 어떻게 설계할것인가가 규격문서에 규정되 있읍니다 ... 처음에 분석을 시작할때에는 CLASS A 통신 절차와 방법 이해하는것도 쉽지 않았읍니다 ...
로라통신을 약 3 년간 틈틈이 시간을 내서 하루에 한 시간씩이라도 공부했던것이 로라통신 규격이 통신 규격과 연동되는 보안인증 처리 방법도 규정되 있는데 특히 통신과 연동된 보안인증 처리 노하우를 이해하는게 쉽지 않았읍니다 ...
현재 저는 로라통신 CLASS A 통신 처리 방법의 세부 이해가 약 90 % 정도 이고 로라통신 CLASS A 통신 처리와 연동되는 보안인증 처리 방법에 대해서도 약 90 % 이해를 하고 있읍니다 ...
로라통신 CLASS A 통신 처리 방법의 세부 이해와 보안인증 처리 방법에 대해 약 90 % 를 이해하고 있는것은 SEMTECH 로라 펌웨어 소스의 세부 내용의 이해와 로라통신 국제 규격의 세부분석을 통한 이해가 더 해져서 약 90 % 를 이해하고 있읍니다 ...
재택근무로 약 1000 만원 정도의 기술자문료를 생각하고 있읍니다 ...
왜 자문료를 1000 만원을 말씀드리냐하면 제가 실업 급여를 약 7 개월 받는중인데 그래도 한 6 개월분 실업급여 금액 정도는 받아야 하는 이유가 자문료를 받으면 실업급여가 끊기거든요 ... 그리고 제가 인공지능쪽으로 투자사에 제안도 넣는중인데 제안서 넣는 기간 어림잡아 한 6 개월 생활비 정도의 벌이가 있어야 제안서 넣으면서 생활비도 충당이 가능하기 때문 입니다 ...
WebRTC 오픈소스 미디어 서버 Janus Gateway 의 설계를 유럽 이탈리아 Meetecho 에서 설계했읍니다 ...
Meetecho 의 Janus 서버 소스가 어떤 구조로 동작하고 어떤 설계구조로 설계했는지 파악하는데 약 10 달이 걸렸읍니다 ... Meetecho 의 Janus 서버 소스가 리눅스 개발환경에서 동작하는 오픈소스 구조의 소스 이기에 이 오픈소스를 설계한 사람들은 어떤식으로 소스의 설계를 했는지 파악하는것에 시간이 걸렸읍니다 ...
Meetecho 의 Janus 서버 소스는 약 6 명이 화상회의 구현에 필요한 기본기능의 소스를 설계해서 제공하고 있구요
이 소스를 기업이 상용 서비스를 가능하도록 커스토마이징하려면 구체적으로 이 소스의 각 설계부분들이 어떤 구조로 설계되 있는지 Meetecho 소스의 확실한 이해가 필요합니다 ...
저는 Meetecho 소스의 설계구조나 소스 설계 방식등을 커스토마이징이 가능할 정도로 이해하는데 성공했읍니다 ... Meetecho 의 Janus Gateway 소스의 경우, 웹 서버 동작 부분과 어플리케이션 서버 동작 부분으로 나뉘어 있는데 이것이 세부적으로 어떤 동작 구조로 설계되 있는지 분석에 성공했읍니다 ....
Meetcho Janus 서버의 소스의 설계구조 이해가 되었구요 ... 이제 필요한것은 대용량 서비스로 확장 가능하게 Janus 서버의 소스를 커스토마이징을 해야하는데 .... Janus 서버는 대용량 서비스로 확장 가능하게 RabbitMQ 서비스를 이용하는것의 기본적인 소스는 제공하구요 ... 여기서 대용량 서비스 구현을 위해 해야 할 일은 RabbitMQ 서비스를 클러스터링 기술을 적용해서 RabbitMQ 서비스를 커스토마이징 개발하는 일이 필요합니다 ...
RabbitMQ 클라우드 서비스의 클러스터링 기술을 적용해서 RabbitMQ 서비스를 커스토마이징 개발하는 일은 저도 추가적인 세부 검토가 필요합니다 ...
딥러닝 사업화 제안 준비는 지금부터 4 년전 한 4 달 준비해서 제안서를 작성해서 제출해본 경험이 있읍니다 ... 그동안에도 틈틈이 딥러닝 설계를 위한 세부분석을 했었구요 그동안은 딥러닝 분석하다가 막히면 잠시 다른 일을 했다가 다시 또 딥러닝 분석작업을 한게 거의 3 년 입니다 ... 저의 경우 87년에 일반대학원 전자공학과에 입학했을때 그때도 음성인식 영상인식을 연구하는 연구실이 있었구요 .... 거의 30 여년 넘어서 인공지능 세부분석을 하는데도 그렇게 어색하지는 않더라구요 ... 딥러닝은 4 년전쯤해서 처음 접할때 생각했던것이 대기업 연구소 혹은 서울대/KAIST 연구실에서 하는 정도라고 파악을 하는게 보통의 경우라고 생각했었읍니다 ... 한 10 년전만 하더라도 이것이 맞는 이야기이지만 이제 현재 시점에서는 각종 기술정보가 국내외 인터넷에 공개되 있는게 기술정보가 워낙 많은 양이 공개되 있구요 ... 인터넷의 많은 정보 속에서 진짜 돈이 되는 정보는 모래사장에서 다이아몬드 찾는 그런 노력없이는 돈이 되는 정보를 획득하는게 불가능하다고 보시면 됩니다 ... 저도 그렇게 한 3 년 모래사장에서 다이아몬드를 찾는 노력을 하다보니 한 3 년만에 돈이 되는 딥러닝 개발정보 획득에 성공했읍니다 ... 그동안 3 년간 국내외 논문도 최소 100 편이상 분석작업을 했었구요 ... 해외논문도 하나씩 살펴 보면서 분석하다 보면 이 논문에서 주요 이슈를 설명하는것이 관심있어서 자료를 찾으려면 인터넷 검색으로 모래사장에서 다이아몬드를 찾는 정도의 노력이 필요하다는 점 입니다 ...
제가 말씀드리고자 하는것은 그동안 많은 시간을 들여서 세세히 검토분석하는 노력이 있었기에 돈이 되는 노하우 확보가 가능했다는 점 입니다 ... 저는 현재 딥러닝 음성인식 구현관련해서 국내외 논문분석을 수십편을 했었구요 ... 수십편의 논문을 분석하다 보니 글로벌 대기업이 발표한 논문들이 여러편이 있는데 음성인식과 관련해서 주요 이슈가 되는 부분을 두세가지 추려 정리해서 현재 대기업 투자사에 세부 설계안을 송부하고 검토결과를 기다리는 상태 입니다 ...
요즘 넷플릭스 때문에 뜨고있는 OTT 서비스관련 제가 주요부분 분석한것도 소개드리면서 추후 분석한 내용으로 사업화 준비까지 생각하고 있읍니다 ... OTT 서비스의 핵심은 방송 미디어 데이터를 수천만명한데 동시에 송출해서 수신에 동의한 가입자가 이 방송 데이터를 수신하는것이 핵심 이슈 입니다 ... 방송 미디어 데이터를 멀티캐스트 통신으로 수신시 가입자가 수신에 동의하는 절차를 구현하기 위해 필요한 통신 프로토콜이 IGMP 프로토콜 입니다 ... IGMP 프로토콜은 방송 송출자가 송출한 방송 스트림을 멀티캐스트 수신에 동의하는 가입자가 수신할수 있도록 처리하기 위해서 필요 합니다 ... 보통 가정에 이통사에서 설치해준 공유기에 IGMP 프로토콜 기능이 내장되 있는것이 있고 그렇치 않은것이 있읍니다 ... 각 가정에 설치된 공유기에 IGMP 프로토콜이 설치되 있지 않으면 방송 송출자가 송출한 방송 스트림을 수신에 동의하는 절차가 불가능 합니다 ... 그래서 필요한 기술이 멀티캐스트 터널링 기법 이라고도 하고 IGMP 스누핑 기법 이라고도 합니다 ... 멀티캐스트 터널링 기술은 IGMP 프로토콜을 우회적으로 동작할수 있게 OTT 단말을 동작시키기 위한 기술 입니다 ... 보통 이통사의 IPTV 셋톱박스에는 기본적으로 IGMP 프로토콜이 내장되 있읍니다 ... 제가 판단하기에 OTT 단말기를 구현하는데 가장 중요한 기술이 멀티캐스트 터널링 혹은 IGMP 스누핑 기술이라고 생각합니다 ... 바꿔 말하면 멀티캐스트 터널링을 구현하려면 IGMP 프로토콜의 세부 동작구조를 확실하게 이해해야 한다는것 입니다 ...
그동안 인공지능 딥러닝을 그동안 약 2 년간 여러모로 준비작업(국내/해외 논문 분석)을 했었읍니다 ...
제가 그동안 분석작업을 진행했던 분야로는 음성인식 / 음성합성 / 언어번역 / GAN (StarGAN / StyleGAN/ CycleGAN) 분야 입니다 ... 여기에 적용되는 딥러닝 메커니즘은 여러개가 있는데 그중 대표적인것이 Seq2Seq 모델 / Attention 모델 / Transformer 모델 등이 있고 이런것들을 적용한 국내외 논문들을 제가 찾아보고 분석한것이 음성인식 분야만 약 50 편 정도 입니다 ... 대부분의 논문들이 제시하는 기법들을 살펴보다 보면 어떤 기법으로 설계했다 정도로만 논문에서 제시하고 그 해당 세부 기법을 알고 싶으면 논문들을 굉장히 여러편(수십편 정도) 검토 분석이 필요 합니다 ...
제가 논문분석을 그동안 진행하면서 요근래 사업계획서를 준비를 하려고 하다보니, 위에서 언급했던 분야들, 제가 분석을 했었던 논문들중에서 사업화로 전환이 가능하려면 해당 논문의 정확한 설계 구조를 이해해야 하고, 딥러닝 서버 구축에는 비용을 얼마를 들여야할지, 상용화로 진행하려면 그에 걸맞은 성능이 나와야 하는데 이렇게 개발하려면 개발인력은 몇명 정도가 필요할지 등등이 고민사항 입니다 ... 저의 경우 음성인식 분야의 경우 대표적인 딥러닝 논문들의 기본적인 설계구조는 어느정도 파악이 되었습니다 ... 성능을 높게 잡으면 비용(최소 수십억)이 많이 필요하니 이것을 어느정도로 목표를 세워야하는지가 고민 입니다 ...
저는 현재 딥러닝 음성인식/음성합성 건으로 특허를 준비중 입니다 ... 딥러닝 음성인식/음성합성 건으로 특허를 출원하기 위해 글로벌 대기업의 논문들을 세부분석을 진행해서 특허내지 실용신안에 적용할만한 특허 이슈를 찾았구요 ... 이 특허이슈의 경우, 딥러닝 음성인식/음성합성 설계를 위해 필요한 핵심기술이슈를 특허이슈로 정했는데, 이 특허이슈도 구현시 약점이 있어서 이 약점도 어느정도 보완할수 있는 설계 안으로 특허이슈를 정하려 합니다 ....
저는 요근래 3년간 딥러닝 음성분야 국내외 논문분석을 진행했읍니다 인공지능 기술은 제가 87년도에 대학원에 입학해서 엎 연구실에서 했었구 그때는 IBM AT PC 로 음성인식을 연구하는것을 관심있게 봤었는데 이제 시간이 흘러 딥러닝 기술로 음성인식이나 음성합성하는게 가능한 시대에 제가 살다보니 살아남으려고 딥러닝 음성분야 논문을 분석을 했었읍니다 딥러닝 음성분야 기술의 발전이 눈부시기에 저도 처음 목표는 딥러닝 초기 기법으로 구현하는것의 노하우 파악이 목표였는데 이것의 파악이 어느정도 가능해지면서 요근래는 대기업에서 추진하는 딥러닝 최신 기법으로 구현하는것의 노하우 확보도 어느정도 파악이 되고 있읍니다
저는 앞으로 6개월이내 딥러닝 음성분야로 사업계획서를 작성해서 투자회사에서 긍정적인 피드백을 받는것을 목표로 현재 사업계획서의 구현 스코프를 확정하려고 혹시나 부족한 부분없없는지 논문 검토를 추가적으로 살피고 있읍니다
그 하나는 인공진능 딥러닝 분야중 언어 번역 모델 분야와 음성합성/음성인식 분야의 모델의 사업화를 준비하고 있읍니다 ...
요즘 언어 번역모델중 세계적으로 이슈가 되는 기술이 GPT-3 언어 번역모델인데 이것의 번역 성능이 거의 90 % 정도 입니다 ... 물론 이런GPT-3 언어 번역모델의 경우, 초거대 규모 학습진행이 필요해서 이 딥러닝 모델은 학습에 최소 450만 달러가 필요 합니다 ... 요근래 한국에서도 대기업 내지 국가 차원에서 GPT-3 언어 번역모델로 초거대 규모 딥러닝 학습의 성능개선을 위한 대규모 자금이 투입 계획이 진행되고 있읍니다 ...
GPT-3 번역모델로 초거대 규모 딥러닝 학습은 구글의 딥러닝 모델로 유명한 Transformer 모델이 기반이 되서 설계된 기술이구요 한국에서도 대기업 내지 국가 차원에서 GPT-3 언어 번역모델로 초거대 규모 딥러닝 학습의 성능개선을 하려면, 기본적으로 해야할 일이 GPT-3 언어 번역 딥러닝 모델의 세부 동작 구조 분석 입니다 ... 이런 작업에 국가차원에서 인력이 투입되는것 이구요 GPT-3 언어 번역 딥러닝 모델을 세부적으로 그 동작 구조를 파악해 놓으면 앞으로 그 쓰임새가 넓을것 같아서 제가 요즘들어 준비를 차근차근 하고 있는것 이구요
저는 GPT-3 언어 번역 딥러닝 모델을 세부적으로 그 동작 구조를 파악하기 위해 해외의 유명 학술지에 발표된 딥러닝 논문을 약 100 여편 세부 분석 작업을 그동안 2 년간 진행해 왔읍니다 ... 이것과 관련해서 기술자문 컨설팅 작업이 가능할만큼 준비가 되있구요 그동안 2 년여 기간동안 이것만 준비한것이 아니고, 음성인식과 음성합성 분야 딥러닝 해외 논문분석작업도 진행을 했읍니다 ...
딥러닝 기반 이라는게 언어 번역 모델을 깊이 있게 분석하다보니 음성인식 이나 음성합성 분야도 GPT-3 에 적용된 Transformer 모델의 기술이 음성인식이나 음성합성시에도 비슷하게 적용되서 설계한 해외 논문들을 그동안 세부분석 작업을 진행했고 눈에 띄는 성과도 얻을수 있었읍니다. 세부 분석하다 보니 언어 번역 모델의 기술이 조금 변형되서 음성인식이나 음성합성에도 사용된다는것을 파악할수 있었구요 그동안 관련한 해외 논문 분석을 100 여편 해 보니 나름 그 세부 노하우를 파악할수 있었읍니다 ... 물론 음성합성이나 음성인식 딥러닝 모델이 Transformer 기반의 어텐션 모델만 있는것은 아니고 몇가지 방안이 있는것도 해외논문을 20 여편 분석을 했읍니다 ...
제가 그동안 사업화 검토한 분야가 WebRTC 미디어 서버를 적용해서 대규모 미디어 서비스를 구현하는 사업화를 검토를 세부적으로 했읍니다 ... 그동안 사업화 검토한 분야가 오픈소스 WebRTC 미디어 서버인 Janus Gateway 서버의 커스토마이징 검토 및 세부 분석 이었읍니다 ... 오픈소스 WebRTC 미디어 서버인 Janus Gateway 서버의 커스토마이징을 위한 세부 분석이 90 % 완료 됬기에 이렇게 글을 올리는것 입니다 ...
그럼 오픈소스 Janus 미디어 서버의 경우 약 6 명이 화상회의 가능한 기본적인 참조소스를 제공하는것 이기에 이것을 커스토마이징하는것에는 보다 더 큰 검토분석이 필요 합니다 ... 몇천명 몇만명이 이 참여하는 구조로 대규모 화상회의 솔루션을 개발하려면 Janus 참조소스를 어떻게 커스토마이징을 해야 하는가 라는 의문이 생깁니다 ... Janus 미디어 서버의 경우 미디어 데이터 통신을 몇가지 방법으로 구현할수 있는 참조소스를 제공합니다 ... 이 방안 중에서 대용량 서비스가 가능한 방안이 Janus 서버에 적용된 부분이 RabbitMQ 서비스 적용이 기본기능이 설계되 있읍니다 ... RabbitMQ 서비스 적용만으로는 대용량 서비스가 어렵구요 ... 그래서 필요한 검토기술이 RabbitMQ 서비스의 RabbitMQ 서버의 콜러스터링 기술 입니다 ... RabbitMQ 클러스터링 대용량 서비스 세부 구현관련 기술 검토에 대해서는 저도 시간을 더 많이 투입해서 세부 검토분석이 더 필요합니다 ... 더 깊이 공부할 부분이 상당히 많습니다 ...