# AI 웹 정보 수집 시스템 이 프로젝트는 AI 모델을 사용하여 인터넷에서 정보를 자동으로 수집하고 Google Drive에 저장하는 시스템입니다. ## 주요 기능 - Hugging Face 모델 (jxm/gpt-oss-20b-base)을 사용하여 AI 에이전트 실행 - 웹 크롤링을 통한 정보 수집 - 수집된 데이터의 Google Drive 저장 (마운트 방식 기본, API 선택) - Colab Pro 환경에서 A100 GPU 활용 ## 요구사항 - Python 3.8 이상 - (옵션) Google Drive API 인증 파일 (credentials.json) - Colab Pro 계정 (A100 GPU 지원) ## 설치 방법 ```bash pip install -r requirements.txt ``` ## 설정 1. `config.json` 파일 설정: - `data_storage.drive_mount_path`: 기본 저장 경로 (마운트 방식) - (옵션) `google_drive_folder_id`: Google Drive API 업로드 대상 폴더 ID - (옵션) `google_credentials_path`: Google API 인증 파일 경로 2. (옵션) Google Drive API 설정: - Google Cloud Console에서 Drive API 활성화 - OAuth 2.0 클라이언트 ID 생성 - credentials.json 파일 다운로드 credentials.json 또는 folder_id가 없으면 API 업로드는 자동 비활성화되고, 마운트 방식 저장만 사용됩니다. ## 실행 방법 자세한 실행 방법은 `run_guide.md` 파일을 참고하세요. ## 로그 - 실행 시 `./logs/run_*.jsonl`에 구조화된 이벤트 로그가 저장됩니다. - LLM 내부 추론(Thought) 로그는 기본 비활성화입니다. 필요 시 환경변수로 활성화할 수 있습니다: - `AIWS_SHOW_THOUGHTS=1` - 저장 파일 미리보기 로그: `AIWS_LOG_FILE_PREVIEW=1` ## 파일 구조 ``` AI_Web_Scraper/ ├── main.py # 메인 실행 파일 ├── model_downloader.py # 모델 다운로드 ├── web_scraper.py # 웹 크롤링 도구 ├── google_drive_uploader.py # Google Drive 업로드 ├── ai_agent.py # AI 에이전트 ├── config.json # 설정 파일 ├── requirements.txt # 의존성 파일 ├── README.md # 프로젝트 설명 └── run_guide.md # 실행 가이드 ```