feat: 셀레니움 선택적 사용 및 폴백 메커니즘 추가
This commit is contained in:
@@ -68,6 +68,15 @@ drive.mount('/content/drive')
|
||||
|
||||
또는 실행 시 `--save-path` 옵션으로 지정할 수 있습니다.
|
||||
|
||||
웹 스크래핑은 기본으로 Requests+BeautifulSoup 모드로 동작합니다(`use_selenium=false`).
|
||||
Selenium을 사용하려면 `web_scraping.use_selenium`을 `true`로 바꾸고, Colab에 Chrome/ChromeDriver를 설치해야 합니다:
|
||||
|
||||
```bash
|
||||
sudo apt-get update && sudo apt-get install -y google-chrome-stable || true
|
||||
pip install selenium webdriver-manager
|
||||
```
|
||||
설치가 어려우면 기본 Requests 모드를 유지하세요.
|
||||
|
||||
## 3. 시스템 실행
|
||||
|
||||
### 3.1 기본 실행 (AI가 스스로 주제 선정)
|
||||
@@ -110,7 +119,7 @@ os.environ["HF_TOKEN"] = "hf_********************************"
|
||||
|
||||
## 4. 실행 과정 설명
|
||||
|
||||
1. **모델 다운로드**: Hugging Face에서 `jxm/gpt-oss-20b-base` 모델을 다운로드
|
||||
1. **모델 다운로드**: Hugging Face에서 `jxm/gpt-oss-20b-base` 모델 파일을 동기화(snapshot)
|
||||
2. **AI 에이전트 초기화**: 모델을 로드하고 도구들을 설정
|
||||
3. **정보 수집**: 각 주제에 대해 AI가 스스로 웹을 탐색하며 정보 수집
|
||||
4. **데이터 저장**: 수집된 데이터를 마운트된 Google Drive의 지정된 폴더에 자동 저장
|
||||
@@ -138,6 +147,14 @@ os.environ["HF_TOKEN"] = "hf_********************************"
|
||||
- 모델 접근 권한(토큰) 필요 여부 확인: 필요 시 `HF_TOKEN` 설정
|
||||
- 네트워크 일시 오류일 수 있으므로 런타임 재시작 후 재시도
|
||||
|
||||
### 6.1.1 모델 로딩 시 GPU 사용이 0%로 보이는 경우
|
||||
- 기본 설정은 4bit 양자화 + GPU/CPU 오프로딩을 사용합니다. 로딩 초기에는 RAM이 먼저 오르고 GPU 사용이 0%일 수 있습니다.
|
||||
- 실행 중에도 GPU가 계속 0%라면 bitsandbytes가 GPU 커널을 잡지 못한 것입니다. 아래를 확인하세요:
|
||||
- `pip install -U transformers accelerate bitsandbytes`
|
||||
- `import torch, bitsandbytes as bnb; print(torch.cuda.is_available())`
|
||||
- `from bitsandbytes.cuda_setup import main_check; print(main_check())`
|
||||
- 여전히 문제가 있으면 `model_settings.max_memory.gpu`를 소폭 올리거나(예: 24GB), `cpu_offload`를 false로 유지하세요.
|
||||
|
||||
### 6.2 메모리 부족 오류 해결
|
||||
모델이 클 경우 GPU 메모리가 부족할 수 있습니다. 다음 방법으로 해결하세요:
|
||||
|
||||
|
||||
Reference in New Issue
Block a user