chatbot 5

[Chatbot] 챗봇 공부하면서 알게 된 용어 및 라이브러리 정리2

✅ Loss function머신러닝이나 딥러닝 모델이 예측한 값과 실제 값 사이의 차이를 측정하는 함수MSE, Cross-Entropy, CenterLoss, GMM등 다양한 Loss 함수가 있다.높은 정확도를 끌어내는 매개변수를 찾기위해 사용📌 MSE, Cross-Entropy , CenterLoss, GMMMSE - 평균 제곱 오차는 실제 값과 예측된 값의 차이를 제곱한 값들의 평균으로 계산, 큰 오차를 줄이는 데 사용Cross-Entropy - 모델이 예측한 확률과 실제 정답 간의 차이를 계산, 정답에 대해 얼마나 높은 확률을 예측했는지를 측정CenterLoss - Cross-Entropy는 정답을 맞추는 것을, Center Loss는 데이터를 잘 모으는 것에 사용 (그래서 보통 같이 사용)GMM..

코딩 2024.12.29
[Chatbot] 챗봇 공부하면서 알게 된 용어 및 라이브러리 정리1

✅ Epoch이 전체 데이터 셋에 대해 한번의 학습 과정이 완료되면 한 번의 epoch가 진행하는것을 말함epochs = 40이라면 전체 데이터를 40번 사용해서 학습을 거치는 것epoch 값이 너무 작다면 underfitting이 너무 크다면 overfitting이 발생할 확률이 높다📌 언더피팅(underfitting), 오버피팅(overfitting)언더피팅 - 모델이 너무 간단하기 때문에 학습 오류가 줄어들지 않는 현상오버피팅 - 학습 데이터에 너무 과하게 적합하여, 새로운 데이터에 대해 정확한 예측을 하지 못하는 현상✅ Gensim텍스트 데이터에서 의미와 주제를 학습 하는데 특화된 라이브러리단어 임베딩할때 Word2Vec, FastText와 같은 모델을 사용하여 단어를 임베딩 벡터로 변환할때 사..

코딩 2024.12.22
[Chatbot] kochat 구조

1. 데이터세트 모듈≫ 사용자의 입력 데이터를 전처리하기 위한 모듈 ≫ 사용자로부터 문장이 입력되면 네이버 맞춤법 검사기를 이용하여 오탈자를 교정후, 품사를 기반으로 토큰화를 진행≫ 토크나이저는 Open Korean Text 토크나이저를 사용 2. 임베딩 모듈≫ 워드 임베딩을 수행하며, FastText와 Word2Vec을 지원≫ 사용자는 입력한 코퍼스를 이용하여 워드 임베딩 모델을 직접 학습 3. 인텐트 모듈≫ 사용자 발화의 의도를 파악하기 위해 사용≫ 사용자 발화를 분류하기 위해 합성곱신경망(CNN)과 장단기메모리신경망(LSTM)을 지원 4. 폴백 모듈≫ 폴백이란 정해진 도메인 이외의 문장이 입력된 경우, “잘 모르겠어요.”와 같은 문장을 반환하여 대화가 지정된 도메인 안에서 진행되게 유도하는 것 ≫ ..

코딩 2024.10.31
[Chatbot] 간단한 챗봇 만들기

1. Anaconda 가상환경1) 설치 - https://www.anaconda.com/download    ( conda : 24.11.2 - 2024.12.29) Download Anaconda Distribution | AnacondaDownload Anaconda's open-source Distribution today. Discover the easiest way to perform Python/R data science and machine learning on a single machine.www.anaconda.com 2) 가상환경 생성≫ Anaconda Navigator 접속후 Environment 에서 가상환경 생성 - python 3.7.16 3) kochat 필요 라이브러리 설치c..

코딩 2024.10.02
[Chatbot] 챗봇

1. 챗봇 종류1) 문제 해결용 : 적은 대화로 주로 문제를 해결하는 용도로 사용된다. 예) 빅스비, 시리2) 자유 대화용 : 긴 대화로 대화를 이어나가기 위한 용도로 사용된다. 예) 이루다 2. 자유대화용 종류1) 답변을 직접 생성하는 모델 : 구글의 Meena 처럼 대화를 학습하여 답변을 생성하는 모델이다.2) DB에서 답변을 가져오는 모델 : 여러개의 답변 DB에서 하나의 답변을 검토하여 가져오는 모델이다. 3. DB에서 답변 추출1) DialogBERT (자연어 이해) : 텍스트로 구성된 메시지를 벡터 형태로 치환하는 과정, 이때 치환하는 모델은 BERT 구조를 가지고 있다.≫  Transformer 모델 구조에서 하나의 문장이 SentencePiece라는 알고리즘으로 문장이 여러 개의 토큰(to..

코딩 2024.10.02