작성자: 정서연 (잡플래닛 지원) Email: [email protected] Phone: 010-4244-5669
<aside> <img src="/icons/info-alternate_lightgray.svg" alt="/icons/info-alternate_lightgray.svg" width="40px" /> Information
</aside>
2014년부터 2015년까지 Agora(다크/딥 웹) 시장에서 추출한 시장 데이터로, 마약, 무기, 책, 서비스 등이 포함되어 있음. 중복된 목록은 제거되었고, 가격은 중복된 목록의 평균값
| Vendor | Category | Item | Description | Price | Origin | Destination | Rating | Remarks |
|---|---|---|---|---|---|---|---|---|
| 공급업체 | 물품 카테고리 | 물품 | 물품 설명 | 상품 비용(2014년부터 2015년까지 중복된 목록의 평균값) | 상품의 발송처가 기재되어 있는 장소 (출발지) | 상품의 배송지가 기재되어 있는 장소 (목적지) | 판매자의 평가 등급 (별점) | 공백 or 평균 가격은 0.5 BTC 이상으로 왜곡 가능 (비고) |
데이터 불러오기 및 헤드 확인

df.info(memory_usage='deep')
Data columns (total 9 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Vendor 109689 non-null object 1 Category 109689 non-null object 2 Item 109685 non-null object 3 Item Description 109662 non-null object 4 Price 109684 non-null object 5 Origin 99807 non-null object 6 Destination 60528 non-null object 7 Rating 109674 non-null object 8 Remarks 12616 non-null object dtypes: object(9) memory usage: 80.3 MB
- 데이터는 (109689, 9), Vendor와 Category를 제외한 모든 행에 결측치가 존재
- Item Description은 필요 없다고 판단 (전처리 과정에서 불필요)
- Price는 숫자와 문자가 혼합되어 있음
- Destination의 결측치는 대체할 필요가 있음
- Rating의 결측치가 Destination 혹은 Origin에 위치해있음을 확인
- Remarks는 이상치 확인 용도로 쓰일 수 있을 것이라고 판단
전처리 이전의 기술통계값
