딥 네트워크 - 딥러닝 모델 분석/네트웍 통신/카메라 3A 튜닝 분야

[해외논문 분석성공] 혼자 힘으로 58 세에 딥러닝 음성인식 딥러닝 모델 설계관련 개발지원 및 컨설팅 가능 합니다 ... 본문

Kernel Porting/Linux

[해외논문 분석성공] 혼자 힘으로 58 세에 딥러닝 음성인식 딥러닝 모델 설계관련 개발지원 및 컨설팅 가능 합니다 ...

파란새 2023. 5. 15. 14:41

그동안 2 년 가까이 BLDC/PMSM 모터제어로 전류를 정밀하게 제어하는 방법을 찾으려고 관련 논문을 수백편 뒤져서 최근에 모터의 정밀 전류제어 구현 기법을 99 % 터득에 성공했다 ...

저는 그동안 모터제어만 판것은 아니고 카메라 이미지센서의 화질 보정 알고리즘을 터득하려고 논문과 특허를 수도 없이 뒤져서 결국 터득에 성공했다 ...

밥벌이를 하려고 이것만 한것은 아니다 ...

딥러닝 NeRF 논문과 StyleGAN 논문의 핵심 딥러닝 모델 설계 구조를 파악하느라 고생 좀 했다 ...

또한 구글 Transformer Model 기반으로 음성인식 구현을 위한 딥러닝 모델 세부 설계구조 분석도 결코 쉽지 않았다 ...

이것으로 밥벌이를 하려 99% 준비해 놨는데 경기가 죽어서 일꺼리 얻기가 하늘에 별따기라 너무 힘들다 ...

이렇게 힘들어도 나는 자신있다 왜냐하면 위에서 언급한 99 점 짜리 기술이 몇가지가 있으니 언젠가 반드시 기회가 오리라 나는 확신하기 때문이다 ...

Kaldi 음성인식 자동 얼라인 도구가 죤스 홉킨스 대학에서 발표한지 꽤 오랜시간이 지났구요 ...  Kaldi 음성인식 자동 얼라인 도구가 HMM-GMM 딥러닝 모델로 만든 음성인식 자동 얼라인 도구 이구요 ...   Kaldi 음성인식 자동 얼라인 도구는 음성인식 자동 얼라인 출력을 얻기 위해서는 파라미터 셋팅도 간단치는 않은것 같고,   그리고 이 KALDI 도구는 음성인식 에러율이 약 12 % 정도더 군요 ... Kaldi 음성인식 자동 얼라인 도구의 HMM-GMM 딥러닝 모델의 경우 혼합 가우시안 구조라서 음성데이터로 HMM-GMM 딥러닝 모델을 학습을 시킬때 정규분포를 하나를 적용해서 학습시키는 구조가 아니고 정규분포가 굉장히 여러개의 분포를 혼합해서 HMM-GMM 딥러닝 모델을 학습시키는 구조인것 같읍니다 ... 그래서 에러율 12 % 를 얻기 위해 HMM-GMM 딥러닝 모델 학습은 시간이 걸려야 원하는 결과 도출이 가능한것 같읍니다 ...  음성 자동 얼라인 HMM-GMM 딥러닝 모델이 나온 이후 나온 딥러닝 모델인 CTC 모델에 저는 관심이 더 갔구요 이 CTC 모델의 경우 디코딩 언어모델 처리구조중 하나인 빔 서치 알고리즘 최적화 설계를 처리했을 경우 에러율이 약 8 % 정도 나오는것 같더라구요 ...     딥러닝 모델인 CTC 모델로 디코딩 언어모델 처리구조까지 적용했을때가 에러율이 약 8 % 정도인데 ...  이를 개선하기 위한 방법으로 JOINT CTC-ATTENTION 모델을 적용하면 에러율이 약 5 % 내외로 나오는것으로 파악됩니다 ...  구글이 발표한 딥러닝 언어모델인 Transformer 모델의 경우도 에러율이 약 5 % 내외로 나오는것으로 파악됩니다 ...

저는 여기까지 말씀드린 음성인식 모델의 세부 설계구조를 파악하는데 성공했구요  요근래 나온 딥러닝 음성인식 모델인 Representation 학습모델의 경우도 에러율이 약 5 % 내외로 나오는것으로 파악됩니다 ...

저의 경우 위에서 설명드린 딥러닝 음성인식 해외 글로벌 대기업의 논문의 세부 동작 구조도 이해하고 있고 Transfomer 모델의 딥러닝 소스도 한줄한줄 동작 처리 방법도 이해하고 있읍니다 ...  저는 89년에 전자공학 석사학위를 받았고, 그 후 대기업 연구소도 7 년 재직 경험이 있고, 지금까지 IT 분야로 30 년의 경험이 있읍니다 ... 그동안 30 년의 IT 분야 경험을 하면서 2007 년 부터 약 2 년간 H.264 Video Decoder SW IP 개발로 사업을 했었는데 ...  결과물의 정밀도가 2 % 부족해서 30 평대 아파트 한채 날린것도 이때 입니다 ...   그 이후 SW 개발용역 일을 약 10 년간 진행을 했었는데 ...  이 기간동안 업체로부터 기술이슈 문의를 약 200 건 정도를 정밀하게 검토할수 있는 기회가 있었구요 .....   대학원에서 문제해결 방법을 배웠구요 ...  그 후 제가 딥러닝 음성인식 구현관련 실무적으로 경험은 없지만, 위에서 말씀드린바와 같이 딥러닝 음성인식 구현을 어떤 설계 구조와 방법으로 결과를 내는것이 가능하다는 것은 그동안 10 여년 기간 동안의 수백번의 시행착오를 겪으면서 터득한 독자적인 문제해결 능력이 있기에 딥러닝 음성인식으로 직접 실무적 경험이 없어도 자신있게 딥러닝 음성인식 노하우를 확보하고 있다고 말씀드리는것이 가능한 이유 입니다 ...   저의 경우 딥러닝 모델인 CTC 모델로 디코딩 언어모델 처리구조까지 적용했을때가 에러율이 약 8 % 정도 구현 가능한 노하우를 보유하고 있읍니다 ...   여기에다 자세하게 모든것을 다 적지 못하는것 이해해 주시구요 ...   에러율이 약 8 % 정도 노하우를 얻기 위해 논문분석을 2 년을 빡시게 해서 얻은 값진 노력의 결과물이라고 말씀드릴수 있읍니다 ...  저도 가능하다고 제시한 음성인식 정확도(에러율)는 특정 음성 데이터셋에서 가능한 성능(에러율) 입니다 ...   제 딥러닝 고군분투기를 위에 적었구요   제가 100 % 완벽하지는 못 하지만 딥러닝 음성인식 에러율 8 % 의 구현 기술력을 세부적으로 터득하고 있읍니다 ...

저는 딥러닝 음성인식 독자적인 사업화에 관심이 많은데 ... 저에게 인큐베이팅 투자가 가능하신 투자사 혹은 대기업 관계자분께서 연락주시면 감사하겠읍니다 ...

 

 

제가 운영하는 일인기업   딥 네트워크 장석원

제가 어떤것들을 그동안 검토분석을 했는지를 소개하는 저의 일인기업 기업블로그 사이트 입니다 ...
제가 사업화를 준비했던 기술들 몇가지에 대해 사업화 준비 내용을 소개하는 기업블로그 입니다 ...

기업블로그 :   https://videocodec.tistory.com/    제 기업블로그 사이트도 자세히 살펴봐 주시구요 ....

이메일 : sayhi7@daum.net

HP : 010-3350 6509