김강민: 파이썬으로 PDF 쪼개기(Cracking PDF with Python)10월 27일(일) / 수원 컨벤션센터 컨벤션 홀 1, 오후 3시 30분~4시
Q. 안녕하세요, 발표자님! 자기소개 부탁드립니다.
안녕하세요. 탐사보도 전문매체 ‘뉴스타파’에서 데이터 저널리스트로 일하고 있는 김강민입니다. 데이터를 분석해서 기사로 쓸만한 이야깃거리를 찾아내는 게 주 업무입니다. 데이터 수집, 정제, 분석 과정에서 파이썬을 활용하고 있습니다. 본업 바깥에서는 시빅 테크 단체인 ‘코드포코리아’에서 오거나이저로 활동하고 있습니다. 기술을 이용해 더 나은 세상을 만드는 데 기여하고 싶은 평범한 시민입니다.
Q. 파이콘 한국 2024에서 어떤 주제를 발표하나요?
발표 주제는 “파이썬으로 PDF 쪼개기"입니다. 정치·사회 분야의 원자료를 보면 곧바로 분석할 수 있는 깔끔한 데이터가 많지 않습니다. 데이터 업계에서 좋아하지 않는 PDF나 HWP 형태의 자료가 흔하고, 때로는 원본을 복사한 종이 상자를 몇 개씩 받기도 합니다. 이러한 서류를 정리하고, 데이터를 수집·정제하는 과정에서 많은 시간과 노력이 필요해집니다. 파이썬은 전 세계적으로 가장 많이 사용되는 프로그래밍 언어 중 하나로, 이런 상황을 해결하는 데 유용한 여러 라이브러리가 구현되어 있습니다. 이번 발표에서는 제가 업무 중에 접한 지저분한 자료를 예로 들어, 파이썬을 활용해 이를 정리하고 분석한 과정을 공유하려 합니다.
Q. 누가 이 발표를 들으면 좋을까요?
제 발표는 파이콘 전체 세션 구성에서 보면 일종의 ‘스낵 콘텐츠’가 될 것 같습니다. 개발 실무에 더 유용한 주제를 다루는 세션에서 복잡해진 머리를 잠시 식힐 수 있을 것입니다. 누구나 부담 없이 편하게 와서 들어주시면 좋겠습니다. 개인적으로는 특히 시빅 테크나 사회 공익에 기여하고 싶은 분들이 오셔서 함께 해주시면 좋겠습니다.
Q. 마지막으로 파이콘 한국 2024에 참여하는 각오를 들려주세요!
2018년 처음 파이콘 한국에 참가한 뒤로 7년이 흘렀네요. 제가 생각하는 파이콘 한국의 가장 큰 매력은 ‘다양성’입니다. 장고를 포함한 웹 개발 등 ‘메이저’한 분야도 있지만, 특수한 분야에서 제가 미처 생각해 보지 않은 놀라운 일에 파이썬이 사용되는 사례가 많았습니다. 음악, 법률, 한글(hwp) 파일 제어, 영상 처리, 포렌식 등이 떠오르네요. 이렇게 다양한 발표를 들으면서 제 업무에 어떻게 적용할 수 있을지 고민하게 되었고, 그 과정이 무척 즐거웠습니다. 올해는 처음으로 발표를 하게 되어, 긴장되면서도 설레네요. 저의 작은 경험이 누군가에게 도움이 되기를 진심으로 바랍니다.
파이콘 한국 2024는 오는 10월 26~27일 수원 컨벤션센터에서 열립니다. 현재 파이콘 티켓 구매와 재정 지원 신청이 가능하니, 관심 있는 분들은 지금 바로 살펴보세요! 추후 요즘IT에도 일부 세션 내용이 공개될 예정이니 많은 관심 부탁드립니다.
요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.
5주 전
요즘IT
기획자 · 마케터
업무
프로덕트
요즘IT가 PICK한 IT 업계 아티클을 전해주는 뉴스레터
[파이콘 한국 2024 미리보기] 10번째 파이콘은 어떤 모습일까?
김강민: 파이썬으로 PDF 쪼개기(Cracking PDF with Python)10월 27일(일) / 수원 컨벤션센터 컨벤션 홀 1, 오후 3시 30분~4시
Q. 안녕하세요, 발표자님! 자기소개 부탁드립니다.
안녕하세요. 탐사보도 전문매체 ‘뉴스타파’에서 데이터 저널리스트로 일하고 있는 김강민입니다. 데이터를 분석해서 기사로 쓸만한 이야깃거리를 찾아내는 게 주 업무입니다. 데이터 수집, 정제, 분석 과정에서 파이썬을 활용하고 있습니다. 본업 바깥에서는 시빅 테크 단체인 ‘코드포코리아’에서 오거나이저로 활동하고 있습니다. 기술을 이용해 더 나은 세상을 만드는 데 기여하고 싶은 평범한 시민입니다.
Q. 파이콘 한국 2024에서 어떤 주제를 발표하나요?
발표 주제는 “파이썬으로 PDF 쪼개기"입니다. 정치·사회 분야의 원자료를 보면 곧바로 분석할 수 있는 깔끔한 데이터가 많지 않습니다. 데이터 업계에서 좋아하지 않는 PDF나 HWP 형태의 자료가 흔하고, 때로는 원본을 복사한 종이 상자를 몇 개씩 받기도 합니다. 이러한 서류를 정리하고, 데이터를 수집·정제하는 과정에서 많은 시간과 노력이 필요해집니다. 파이썬은 전 세계적으로 가장 많이 사용되는 프로그래밍 언어 중 하나로, 이런 상황을 해결하는 데 유용한 여러 라이브러리가 구현되어 있습니다. 이번 발표에서는 제가 업무 중에 접한 지저분한 자료를 예로 들어, 파이썬을 활용해 이를 정리하고 분석한 과정을 공유하려 합니다.
Q. 누가 이 발표를 들으면 좋을까요?
제 발표는 파이콘 전체 세션 구성에서 보면 일종의 ‘스낵 콘텐츠’가 될 것 같습니다. 개발 실무에 더 유용한 주제를 다루는 세션에서 복잡해진 머리를 잠시 식힐 수 있을 것입니다. 누구나 부담 없이 편하게 와서 들어주시면 좋겠습니다. 개인적으로는 특히 시빅 테크나 사회 공익에 기여하고 싶은 분들이 오셔서 함께 해주시면 좋겠습니다.
Q. 마지막으로 파이콘 한국 2024에 참여하는 각오를 들려주세요!
2018년 처음 파이콘 한국에 참가한 뒤로 7년이 흘렀네요. 제가 생각하는 파이콘 한국의 가장 큰 매력은 ‘다양성’입니다. 장고를 포함한 웹 개발 등 ‘메이저’한 분야도 있지만, 특수한 분야에서 제가 미처 생각해 보지 않은 놀라운 일에 파이썬이 사용되는 사례가 많았습니다. 음악, 법률, 한글(hwp) 파일 제어, 영상 처리, 포렌식 등이 떠오르네요. 이렇게 다양한 발표를 들으면서 제 업무에 어떻게 적용할 수 있을지 고민하게 되었고, 그 과정이 무척 즐거웠습니다. 올해는 처음으로 발표를 하게 되어, 긴장되면서도 설레네요. 저의 작은 경험이 누군가에게 도움이 되기를 진심으로 바랍니다.
파이콘 한국 2024는 오는 10월 26~27일 수원 컨벤션센터에서 열립니다. 현재 파이콘 티켓 구매와 재정 지원 신청이 가능하니, 관심 있는 분들은 지금 바로 살펴보세요! 추후 요즘IT에도 일부 세션 내용이 공개될 예정이니 많은 관심 부탁드립니다.
요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.