Artificial Intelligence/πŸ“–

[κ°œλ…] ν¬μ†Œ ν‘œν˜„ / 밀집 ν‘œν˜„

geum 2022. 3. 10. 16:31

ν¬μ†Œ ν‘œν˜„ | sparse representation

- λ¬Έμž₯을 λ²‘ν„°λ‘œ λ‚˜νƒ€λ‚Ό λ•Œ λŒ€λΆ€λΆ„μ˜ 값이 0인 ν¬μ†Œν–‰λ ¬ κ°œλ… 이용 → ν‘œν˜„ν•˜κ³ μž ν•˜λŠ” λ‹¨μ–΄μ˜ μΈλ±μŠ€λŠ” 1, λ‚˜λ¨Έμ§€ μΈλ±μŠ€λŠ” 0으둜 μ„€μ •

- λ‹¨μ–΄μ˜ μˆ˜κ°€ λŠ˜μ–΄λ‚˜λ©΄ 차원도 ν•¨κ»˜ μ»€μ§€λŠ” 문제점이 μžˆλ‹€.

 

예)

μ™Όμͺ½μ€ ν‘œν˜„ν•˜κ³  싢은 단어가 3개이기 λ•Œλ¬Έμ— 3μ°¨μ›μ΄μ§€λ§Œ, 였λ₯Έμͺ½μ€ 100κ°œκ°€ λ„˜κΈ° λ•Œλ¬Έμ— 100차원을 λ„˜κ²Œ λ˜μ–΄ κΈ΄ λ¬Έμž₯을 λ²‘ν„°λ‘œ λ‚˜νƒ€λ‚΄μ•Ό ν•  λ•ŒλŠ” ν¬μ†Œ ν‘œν˜„μ΄ λΉ„νš¨μœ¨μ μ΄λ‹€.

 

⭐ μ›μ†Œ κ°œμˆ˜κ°€ 차원인가? 에 λŒ€ν•œ μ˜λ¬Έμ€ 이 곳을 μ°Έκ³ ν•˜λ©΄ 도움이 될 λ“― ν•˜λ‹€. (사싀 λ‚΄κ°€ 차원 κ°œλ…μ„ μ™„μ „νžˆ μ •λ¦½ν•˜μ§€ λͺ»ν•¨)

 

 

ν¬μ†Œν–‰λ ¬

 

밀집 ν‘œν˜„ | dense representation

- λ‹¨μ–΄μ˜ κ°œμˆ˜μ™€ 상관없이 μ‚¬μš©μžκ°€ 차원 값을 μ„€μ •ν•˜κΈ° λ•Œλ¬Έμ— 차원 μΆ•μ†Œμ˜ μž₯점이 μžˆλ‹€. 

- νŠΉμ • 단어λ₯Ό ν‘œν˜„ν•˜κΈ° μœ„ν•΄ μ—¬λŸ¬ νŠΉμ„±μ„ κ³ λ €ν•˜μ—¬ 각 μš”μ†Œμ— λŒ€ν•œ 정보가 μ‹€μˆ˜λ‘œ ν‘œν˜„λœλ‹€.

 

** β–  : μ—¬λŸ¬ 자료λ₯Ό μ°Έκ³ ν•œ ν›„ 개인적으둜 ν•΄μ„ν•œ λ‚΄μš©μž…λ‹ˆλ‹€. 잘λͺ»λœ λ‚΄μš©μ΄λΌλ©΄ λŒ“κΈ€λ‘œ μ•Œλ €μ£Όμ„Έμš”! ** 

 

https://www.pinecone.io/learn/dense-vector-embeddings-nlp/

 

μ°Έκ³  μ‚¬μ΄νŠΈ

https://ko.wikipedia.org

https://wikidocs.net/33520

https://bkshin.tistory.com/entry/NLP-11-Word2Vec

https://programmers.co.kr/learn/courses/21/lessons/1697

https://www.pinecone.io/learn/dense-vector-embeddings-nlp/