Files
AI_Devlop/AI_Web_Scraper

AI 웹 정보 수집 시스템

이 프로젝트는 AI 모델을 사용하여 인터넷에서 정보를 자동으로 수집하고 Google Drive에 저장하는 시스템입니다.

주요 기능

  • Hugging Face 모델 (jxm/gpt-oss-20b-base)을 사용하여 AI 에이전트 실행
  • 웹 크롤링을 통한 정보 수집
  • 수집된 데이터의 Google Drive 저장 (마운트 방식 기본, API 선택)
  • Colab Pro 환경에서 A100 GPU 활용

요구사항

  • Python 3.8 이상
  • (옵션) Google Drive API 인증 파일 (credentials.json)
  • Colab Pro 계정 (A100 GPU 지원)

설치 방법

pip install -r requirements.txt

설정

  1. config.json 파일 설정:

    • data_storage.drive_mount_path: 기본 저장 경로 (마운트 방식)
    • (옵션) google_drive_folder_id: Google Drive API 업로드 대상 폴더 ID
    • (옵션) google_credentials_path: Google API 인증 파일 경로
  2. (옵션) Google Drive API 설정:

    • Google Cloud Console에서 Drive API 활성화
    • OAuth 2.0 클라이언트 ID 생성
    • credentials.json 파일 다운로드

    credentials.json 또는 folder_id가 없으면 API 업로드는 자동 비활성화되고, 마운트 방식 저장만 사용됩니다.

실행 방법

자세한 실행 방법은 run_guide.md 파일을 참고하세요.

로그

  • 실행 시 ./logs/run_*.jsonl에 구조화된 이벤트 로그가 저장됩니다.
  • LLM 내부 추론(Thought) 로그는 기본 비활성화입니다. 필요 시 환경변수로 활성화할 수 있습니다:
    • AIWS_SHOW_THOUGHTS=1
    • 저장 파일 미리보기 로그: AIWS_LOG_FILE_PREVIEW=1

파일 구조

AI_Web_Scraper/
├── main.py                 # 메인 실행 파일
├── model_downloader.py     # 모델 다운로드
├── web_scraper.py          # 웹 크롤링 도구
├── google_drive_uploader.py # Google Drive 업로드
├── ai_agent.py            # AI 에이전트
├── config.json            # 설정 파일
├── requirements.txt       # 의존성 파일
├── README.md              # 프로젝트 설명
└── run_guide.md           # 실행 가이드