๐ฌ ์ต๋ํ ๋งค๋๋ฝ๊ฒ ํด์ํ๊ณ ์ ๋ ธ๋ ฅํ์ง๋ง ์ด์ํ ๋ฌธ์ฅ์ด ์์ ์ ์์ต๋๋ค. ํผ๋๋ฐฑ์ ์ธ์ ๋ ํ์์ ๋๋ค ๐
์๋ณธ ๊ธ ์ฃผ์: https://towardsdatascience.com/micro-macro-weighted-averages-of-f1-score-clearly-explained-b603420b292f
F1 Score(F-measure๋ผ๊ณ ๋ ํจ)๋ ๋ถ๋ฅ ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ฐ์ ๋ง์ด ์ฌ์ฉ๋๋ ํ๊ฐ ์งํ์ ๋๋ค. ๋ค์ค ํด๋์ค ๋ถ๋ฅ์ ๊ฒฝ์ฐ, F1 score ๊ณ์ฐ์ ์ํด ์๋ก ๋ค๋ฅธ ํ๊ท ํ ๋ฐฉ๋ฒ(macro, weighted, micro)์ ์ฌ์ฉํ์ฌ ๋ถ๋ฅ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํฉ๋๋ค. ์ด ๊ธ์์๋ ๊ฐ ํ๊ท ์ ์๋ฏธ์ ๊ณ์ฐ ๋ฐฉ๋ฒ, ๊ฒฐ๊ณผ ๋ถ์์ ์ํด ๋ฌด์์ ๊ณจ๋ผ์ผ ํ๋์ง์ ๋ํด ์์๋ด ๋๋ค.
๋ณต์ต(Optional)
* Layman definition: ๋น์ ๋ฌธ๊ฐ์ ์ธ ์ ์; ์ฌ์ด ์ ์
Precision
Layman definition: ์์ธก ๊ฒฐ๊ณผ๊ฐ positive์ธ ๊ฒ ์ค ์ค์ positive์ ์
๊ณ์ฐ:
Recall
Layman definition: ์ค์ positive์ธ ๊ฒ ์ค ์์ธก ๊ฒฐ๊ณผ๋ positive์ธ ๊ฒ์ ์
๊ณ์ฐ:
Precision๊ณผ recall์ ์์์ ๊ต์ฅํ ์ ์ฌํด ๋ณด์ ๋๋ค. ์ ์ผํ ์ฐจ์ด์ ์ ๋ถ๋ชจ์ ๋ ๋ฒ์งธ ํญ์ด precision์์๋ False Positive์ด๊ณ recall์์๋ False Negative๋ผ๋ ๊ฒ์ ๋๋ค.
F1 Score
๋ชจ๋ธ ์ฑ๋ฅ์ ์ข ํฉ์ ์ผ๋ก ํ๊ฐํ๋ ค๋ฉด precision๊ณผ recall์ ๋ชจ๋ ํ์ธํด์ผ ํฉ๋๋ค. F1 Score๋ ๋ ๊ฐ์ ๋ชจ๋ ๊ณ ๋ คํ๋ ์ ์ฉํ ํ๊ฐ ์งํ ์ญํ ์ ํฉ๋๋ค.
์ ์: ๋ชจ๋ธ ์ฑ๋ฅ์ ๊ท ํ ์กํ ์์ฝ์ ์ํ precision๊ณผ recall์ ์กฐํ ํ๊ท
๊ณ์ฐ:
TP, FP, FN์ผ๋ก F1 Score๋ฅผ ํํํ๋ค๋ฉด ๋ค์๊ณผ ๊ฐ์ ์์ ์ป์ ์ ์์ต๋๋ค.
์์ ์ค์
ํ๊ท F1 Score์ ๊ฐ๋ ์ ์ดํดํ๊ธฐ ์ํด ์ด ํํ ๋ฆฌ์ผ์์๋ ์๋ ์์๋ฅผ ์ฌ์ฉํฉ๋๋ค.
๋นํ๊ธฐ, ๋ฐฐ, ์๋์ฐจ 3๊ฐ์ ํด๋์ค๋ฅผ ๊ฐ์ง ๋ฉํฐ ํด๋์ค ๋ฐ์ดํฐ์ ์ผ๋ก ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ชจ๋ธ์ ํ์ต์ํจ๋ค๊ณ ์์ํด๋ณด์ธ์. 10๊ฐ์ ํ ์คํธ ์ด๋ฏธ์ง ํด๋์ค๋ฅผ ๋ถ๋ฅํ๊ธฐ ์ํด ์ด ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค.
sklearn.metrics.classfication_report ๋ช ๋ น์ด๋ฅผ ์คํํ๋ฉด ์๋์ ๋ถ๋ฅ ๋ฆฌํฌํธ๋ฅผ ์ป์ ์ ์์ต๋๋ค.
ํด๋์ค๋ณ ์ ์(์ฃผํฉ์ ์ปฌ๋ผ)์ ํ๊ท ์ ์๋ ์ฐ๋ฆฌ๊ฐ ๋ด๋ฆฌ๊ฒ ๋ ๊ฒฐ์ ์ ์ด์ ์ ๋๋ค.
10๊ฐ์ ํ ์คํธ ์ด๋ฏธ์ง ๋ชฉ๋ก์ ๋ณด๋ฉด ๋ฐ์ดํฐ์ ์ด ๋ถ๊ท ํํ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.(10๊ฐ ์ด๋ฏธ์ง ์ค ๋จ ํ๋๋ง์ด '๋ฐฐ' ํด๋์ค์ ํด๋น) ๋ฐ๋ผ์ ์์ธก๊ณผ ์ ๋ต์ ์ผ์น ๋น์จ(์ ํ๋)์ ๋ชจ๋ธ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ด ์๋๋๋ค.
๋์ ๋ชจ๋ธ ์์ธก์ ๋ํ ์ ์ฒด์ ์ธ ์ดํด๋ฅผ ์ํด confusion matrix๋ฅผ ์ดํด๋ด ์๋ค.
์์ confusion matrix๋ฅผ ์ด์ฉํ๋ฉด ์๋์ ๊ฐ์ด True Positive(TP), False Positive(FP) ๋ฐ False Negative(FN)์ ์๊ณ๊ฐ์ ๊ตฌํ ์ ์์ต๋๋ค.
์ ํ๋ 3๊ฐ์ ํด๋์ค ๊ฐ๊ฐ์ ๋ํ preicision, recall ๊ทธ๋ฆฌ๊ณ F1 Score์ ํด๋์ค๋ณ ๊ฐ์ ์ ๊ณ์ฐํ ์ ์๊ฒ ํฉ๋๋ค.
๋ค์ค ๋ถ๋ฅ์์๋ ์ด์ง ๋ถ๋ฅ์ฒ๋ผ ์ ์ฒด์ ๋ํ ํ๋์ F1 Score ๋์ OvR(One-vs-Rest) ์ ๊ทผ ๋ฐฉ์์ผ๋ก ๊ฐ ํด๋์ค์ ๋ํ F1 Score๋ฅผ ๊ณ์ฐํ๋ค๋ ๊ฒ์ด ์ค์ํ ์ ์ ๋๋ค.
OvR ๋ฐฉ์์์๋ ๊ฐ ํด๋์ค์ ๋ค๋ฅธ ๋ถ๋ฅ๊ธฐ๊ฐ ์๋ ๊ฒ์ฒ๋ผ ์ฑ๋ฅ์ ๊ฐ๋ณ์ ์ผ๋ก ๊ฒฐ์ ํฉ๋๋ค. ํด๋์ค๋ณ ์ฑ๋ฅ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
ํ์ง๋ง ํด๋์ค๋ณ๋ก ์ฌ๋ฌ ๊ฐ์ F1 Score๋ฅผ ๊ฐ๋ ๋์ , ์ ์ฒด ์ฑ๋ฅ์ ๋ํ๋ด๋ ํ๋์ ์ซ์๋ฅผ ์ป๊ธฐ ์ํด ํ๊ท ์ ์ทจํ๋ ๊ฒ์ด ๋ ๋์ ๊ฒ ๊ฐ์ต๋๋ค.
์ด์ ๋ถ๋ฅ ๋ฆฌํฌํธ์ ์ธ ๊ฐ์ง ํ๊ท F1 Score๋ก ์ด์ด์ง ํ๊ท ํ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ณด๊ฒ ์ต๋๋ค.
Macro Average
Macro Averaging์ ์๋ง ์๋ง์ ํ๊ท ํ ๋ฐฉ๋ฒ ์ค ๊ฐ์ฅ ๊ฐ๋จ ๋ฐฉ๋ฒ์ผ ๊ฒ์ ๋๋ค.
Macro-averaged F1 Score(๋๋ macro F1 Score)๋ ๋ชจ๋ ํด๋์ค์ ์ฐ์ ํ๊ท (๊ฐ์ค์น๋ฅผ ๋์ง ์๋ ํ๊ท )์ ์ด์ฉํด ๊ณ์ฐ๋ฉ๋๋ค.
์ด ๋ฐฉ๋ฒ์ ๊ฐ ํด๋์ค์ support value์ ๊ด๊ณ์์ด ๋ชจ๋ ํด๋์ค๋ฅผ ๋๋ฑํ๊ฒ ์ฒ๋ฆฌํฉ๋๋ค.
์์์ ๊ณ์ฐํ ๊ฐ 0.58์ ๋ถ๋ฅ ๋ฆฌํฌํธ์์์ macro avg์ ๋์ผํฉ๋๋ค.
Weighted Average
Weighted-averaged F1 Score๋ ๊ฐ ํด๋์ค์ support๋ฅผ ๊ณ ๋ คํ์ฌ ๋ชจ๋ ํด๋์ค์ F1 Score ํ๊ท ์ ๊ตฌํฉ๋๋ค.
Support๋ ๋ฐ์ดํฐ์ ์์ ํด๋์ค์ ์ค์ ๋ฐ์ ํ์๋ฅผ ๋ํ๋ ๋๋ค. ์๋ฅผ ๋ค์ด, '๋ฐฐ'์ support value๊ฐ 1์ด๋ผ๋ฉด '๋ฐฐ' ๋ ์ด๋ธ์ด ์๋ ๊ด์ธก์น๊ฐ ํ๋์์ ์๋ฏธํฉ๋๋ค.
'Weight'๋ ์ ์ฒด support value์ ๋ํ ํด๋์ค์ ์๋์ ์ธ support ๋น์จ์ ๋ํ๋ ๋๋ค.
Weighted averaging์ ๊ฒฝ์ฐ, ์ถ๋ ฅ๋ ํ๊ท ์ ์ฃผ์ด์ง ํด๋์ค์ ํด๋นํ๋ ๋ฐ์ดํฐ ์์ ๋ฐ๋ผ ๊ฐ์ค์น๊ฐ ๋ถ์ฌ๋ ๊ฐ ํด๋์ค์ ๊ธฐ์ฌ๋์ ๋ํด ์ค๋ช ํ๊ณ ์์ ๊ฒ์ ๋๋ค.
์์์ ๊ณ์ฐํ ๊ฐ 0.64๋ ๋ถ๋ฅ ๋ฆฌํฌํธ์์์ weighted avg์ ๋์ผํฉ๋๋ค.
Micro Average
Micro Averaging์ TP, FN, FP ๊ฐ๊ฐ์ ์ดํฉ์ ๊ตฌํด global average F1 Score๋ฅผ ๊ณ์ฐํฉ๋๋ค.
๋จผ์ ๋ชจ๋ ํด๋์ค์ ๋ํด ์๋์ ์ธ TP, FP, FN์ ๊ตฌํ๊ณ micro F1 Score๋ฅผ ์ป๊ธฐ ์ํด F1 ๊ณต์์ ๊ฐ์ ๋์ ํฉ๋๋ค.
๋ถ๋ฅ ๋ฆฌํฌํธ์์ micro F1 Score ๊ฐ์ธ 0.6์ด ์ micro avg๊ฐ ์๋ accuracy๋ก ํ๊ธฐ๋์ด ์๋์ง ๊ถ๊ธํ ๊ฒ์ ๋๋ค.
์ด๋ฌํ ์ด์ ๋ micro averaging์ด ๋ชจ๋ ๊ด์ธก์น ์ค์์ ์ ํํ๊ฒ ๋ถ๋ฅํ ๊ฒ์ ๋น์จ์ ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด ์ ์ ์๊ฐํ๋ค๋ฉด micro averaging์ ์ ์๋ ์ ์ฒด accuracy ๊ณ์ฐ์ ์ํด ์ฌ์ฉํ๋ ๊ฒ์ ๋๋ค.
๋ํ, precision๊ณผ recall์ micro averaging์ ์ ์ฉํด๋ 0.6์ด๋ผ๋ ๊ฐ์ ๊ฐ์ ์ป๊ฒ ๋ฉ๋๋ค.
์ด ๊ฒฐ๊ณผ๋ ๊ฐ๊ฐ์ ๊ด์ธก์น๊ฐ ํ๋์ ๋ ์ด๋ธ(๋นํ๊ธฐ or ๋ฐฐ or ์ฐจ)๋ง์ ๊ฐ์ง๋ ๋ค์ค ๋ถ๋ฅ ๋ฌธ์ ์์ micro-F1, micro-precision, micro-recall๊ณผ accuracy๋ ๋ชจ๋ ๊ฐ์ ๊ฐ์ ๊ฐ์ง๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. (์ด ์์ ์์๋ 0.6)
๊ทธ๋ฆฌ๊ณ ์ด๋ micro-F1, micro-precision, micro-recall์ด ๋์ผํ ๊ฐ์ด๊ธฐ ๋๋ฌธ์ ๋ถ๋ฅ ๋ฆฌํฌํธ๋ ํ๋์ accuracy ๊ฐ๋ง ํ์ํ๋ฉด ๋๋ ์ด์ ์ ๋๋ค.
์ด๋ค average ๋ฐฉ๋ฒ์ ๊ณจ๋ผ์ผ ํ ๊น?
๋ชจ๋ ํด๋์ค๊ฐ ๋๊ฐ์ด ์ค์ํ ๋ถ๊ท ํ ๋ฐ์ดํฐ์ ์ผ๋ก ์์ ํ๊ฒ ๋๋ค๋ฉด ๋ชจ๋ ํด๋์ค๋ฅผ ๋๋ฑํ๊ฒ ์ฒ๋ฆฌํ๋ macro average๊ฐ ์ข์ ์ ํ์ง๊ฐ ๋ ๊ฒ์ ๋๋ค. ์ด๊ฒ์ ๋นํ๊ธฐ, ๋ฐฐ, ์๋์ฐจ ๋ถ๋ฅ์ ๊ด๋ จ๋ ์์ ์ผ ๊ฒฝ์ฐ macro-F1 Score๋ฅผ ์ฌ์ฉํ๋ค๋ ๊ฒ์ด๋ผ๋ ์๋ฏธํฉ๋๋ค.
๋ง์ฝ ๋ถ๊ท ํํ ๋ฐ์ดํฐ์ ์ด๋ฉด์ ๊ฐ์๊ฐ ๋ ๋ง์ ํด๋์ค์ ๋์ ๊ธฐ์ฌ๋๋ฅผ ์ฃผ๊ณ ์ถ๋ค๋ฉด, weighted average๊ฐ ์ ํธ๋ฉ๋๋ค. Weighted averaging์์๋ ํด๋์ค๋ณ ๊ฐ์์ ๋ฐ๋ผ F1 ํ๊ท ์ ๋ํ ๊ฐ ํด๋์ค์ ๊ธฐ์ฌ๋์ ๊ฐ์ค์น๊ฐ ๋ถ์ฌ๋๊ธฐ ๋๋ฌธ์ ๋๋ค.
๋ง์ฝ ๋ฐ์ดํฐ์ ์ ๊ท ํ์ด ์ ๋ง๊ณ ํด๋์ค์ ์๊ด์์ด ์ ์ฒด ์ฑ๋ฅ์ ์ฝ๊ฒ ์ดํดํ๊ณ ์ ํ๋ค๊ณ ๊ฐ์ ํด๋ด ์๋ค. ์ด๋ฐ ๊ฒฝ์ฐ์๋ micro F1 Score์ธ accuracy๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค.
'Archive' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๋ฒ์ญ] The History of Open-Source LLMs: Part โ ก. Better Base Models (0) | 2023.10.25 |
---|---|
[๋ฒ์ญ] The History of Open-Source LLMs: Part โ . Early days (1) | 2023.10.23 |
[๋ฒ์ญ] Foundations of NLP Explained Visually: Beam Search, How It Works (0) | 2022.08.01 |
[๋ฒ์ญ] Word2Vec Research Paper Explained (0) | 2022.07.04 |
[๋ฒ์ญ] Introduction to Stemming and Lemmatization (0) | 2022.04.01 |