Skip to content

Latest commit

 

History

History
9 lines (9 loc) · 2.04 KB

paper.md

File metadata and controls

9 lines (9 loc) · 2.04 KB

10월 29일 ~ 11월 5일 간 나온 AI 주요 포스트와 논문

수학 단어 문제 풀기(https://openai.com/blog/grade-school-math/) – OpenAI가 별도의 생성 - 검증 모델을 이용하여 초등학교 수학 문제에서 GPT3 미세 조정 모델보다 두 배 높은 정확도를 달성했습니다. QANDA의 설루션 구조도 궁금해지네요. 🤓 음향 언어 유사성을 사용하여 ASR을 위한 교차 언어 전이(https://arxiv.org/pdf/2111.01326v1.pdf) – 우리의 관심 대상이지만 리소스가 적은 언어와 가장 유사한, 리소스가 많은 언어는 무엇일까요? 인코더-디코더 아키텍처에서 어텐션이 어떻게 이루어지는지 이해하기(https://arxiv.org/pdf/2110.15253v1.pdf) – 멋진 그림들이 나와있지만 저자들이 정확히 뭘 하고 있는지 아직 잘 모르겠습니다. 투영된 GAN으로 더 빠르게 수렴하기(https://arxiv.org/pdf/2111.01007v1.pdf) – 판별자가 실제 또는 가짜를 분류하기 전에 프리징 된 CNN에 생성 및 원본 이미지를 통과시킵니다. 훈련 시간이 5일에서 3시간으로 단축됐네요! 사전 훈련을 개선하기 위한 메타 학습(https://arxiv.org/pdf/2111.01754v1.pdf) – 사전 훈련 알고리즘에 대한 최적 하이퍼 파라미터를 학습하는 그래디언트 기반 프로그램입니다. 관계형 셀프 어텐션: 비디오 이해 작업 시 어텐션에서 누락되는 것(https://arxiv.org/pdf/2111.01673v1.pdf) – 모션 다이내믹스를 캡처하는 비디오 동작 인식의 신규 아키텍처. 고차원에서의 학습은 항상 외삽에 해당한다(https://arxiv.org/abs/2110.09485) – 학습 알고리즘이 미관측 데이터를 일반화하는 방식에 관한 과거의 직관을 반박합니다. 비-심층(Non-deep) 네트워크(https://arxiv.org/pdf/2110.07641.pdf) – 복잡한 추론 능력을 달성하기 위해 네트워크를 깊게 만드는 대신 병렬 하위 구조를 사용합니다. (깃헙은 https://github.com/imankgoyal/NonDeepNetworks 아직 깡통이네요.)