Giới thiệu về R

R là gì?
R là một ngôn ngữ lập trình và môi trường dành cho tính toán thống kê và xây dựng biểu đồ. R do hai nhà khoa học Ross Ihaka và Robert Gentleman xây dựng vào năm 1991. Do là một phần mềm mã nguồn mở, R được đông đảo cộng đồng các nhà thống kê và phân tích trên thế giới xây dựng và phát triển. Hiện giờ, R được coi là một trong những phần mềm phát triển nhanh chóng và mạnh nhất hiện nay. Để hiểu rõ hơn R, có thể xem video dưới đây:

 

Tại sao lại nên sử dụng R ?

  • Thứ nhất, R được hỗ trợ bởi cộng đồng các nhà phân tích thống kê lớn nhất thế giới, do đó, các kỹ thuật và phương pháp tiên tiến nhất được hỗ trợ sớm nhất trên R. R được sử dụng như là một phần mềm phân tích thống kê rộng rãi tại các trường đại học lớn trên thế giới.
  • Thứ hai, R cung cấp các công cụ và phương pháp phân tích thống kê đa dạng cũng như các biểu đồ mạnh nhất hiện nay. Các biểu đồ trong R có chất lượng tốt hơn hẳn so với Stata, Excel hay SAS. Hiểu biết về lập trình và phân tích trong R được đánh giá cao trong lĩnh vực phân tích. Rất nhiều công ty lớn như Facebook, Uber… đều sử dụng R trong phân tích.
  • Thứ ba, rất nhiều các mô hình phân tích, dự báo và xử lý số liệu, vẽ biểu đồ đã được viết sẵn trên R. Không chỉ thể, các gói câu lệnh (packages) trong R có tính kế thừa rất cao, do đó, đối với các nhà phân tích, nhiều khi chỉ cần vài dòng lệnh đơn giản đã có thể xử lý xong các vấn đề mà ở các phần mềm khác, có thể tốn rất nhiều thời gian.
  • Thứ tư, R có thể kết hợp với rất nhiều với các công cụ phân tích khác trong việc phân tích thống kê. Ví dụ, R có thể kết hợp với Google Analytics (GA) để xây dựng các mô hình phân tích, dự báo chuỗi thời gian hoặc data mining – điều mà chỉ Google Analytics hoặc các phần mềm khác rất khó thực hiện.
  • Thứ năm, R là phần mềm miễn phí, có thể chạy trên nhiều hệ điều hành khác nhau. Do đó, bạn sẽ không phải lo đến vấn đề dùng phần mềm lậu.
  • Thứ sáu, khi thế giới hiện đang bùng nổ thông tin, việc phân tích để đưa ra các quyết định ngày càng chiếm vị trí quan trọng trong kinh doanh (data driven strategy). Do đó, nghề phân tích số liệu được dự báo là một trong 8 ngành nghề sẽ phát triển mạnh trong 5 năm tới . Nếu bạn muốn tiếp cận xu hướng mới hoặc muốn trở thành một nhà phân tích, R sẽ là một công cụ hữu ích giúp bạn trong công việc thực tế, kinh doanh cũng như nghiên cứu.

Vậy R có điểm hạn chế R gì không?

  • Thứ nhất, khi bắt đầu bạn cần phải hiểu các câu lệnh cơ bản trong R thì mới có thể thực hiện được những phương pháp phân tích nâng cao khác. R là một phần mềm rất mạnh nhưng lại không phải phần mềm dạng « point-and-click », do đó, đối vỡi những người quen dùng excel hoặc phần mềm dạng «point & click », sẽ có thể gặp một số khó khăn.
  • Thứ hai, các packages (tạm dịch : gói câu lệnh) trong R có rất nhiều. Đối với người mới bắt đầu, R có thể gây khó khăn trong việc xử lý dữ liệu do với cùng một vấn đề, có thể có rất nhiều cách giải quyết khác nhau.

Một số trường hợp thực tế mà việc sử dung R trong phân tích sẽ hiệu quả rõ rệt hơn việc sử dụng các phần mềm khác?
Có rất nhiều trường hợp mà việc sử dụng R sẽ có hiệu quả hơn hẳn so với các phần mềm khác, có thể kể đến như sau:

  • Khi cần tiếp cận với các phương pháp phân tích, dự báo và thống kê mới. Rất nhiều người dùng R bắt đầu học sử dụng R với lý do này. Họ thấy các phương pháp phân tích mới và nhận ra rằng, các phương pháp này chỉ có thể tìm được trên R.
  • Khi cần sử dụng các kết quả phân tích nhiều lần hoặc phải áp dụng phương pháp phân tích cho nhiều tập dữ liệu khác nhau. Do tất cả được viết bằng các câu lệnh, R có thể dễ dàng phân tích các tập dữ liệu khác nhau. Thậm chí, R có thể xây dựng và tạo ra được các báo cáo tự động mỗi khi thay đổi dữ liệu phân tích.
  • Khi bạn cần phải xử lý các phân tích liên quan đến thương mại điện tử hoặc social networks như Facebook hoặc Twitter, R là công cụ tuyệt vời để kết hợp giữa Econometrics, Data Mining và dữ liệu từ các công cụ như Google Analytics hay dữ liệu từ Facebook và Twitter. Các công cụ phân tích thông thường khác gần như rất khó để thực hiện điều này.

Có các công ty nào đang sử dụng R trong phân tích ?
R được sử dụng rất rộng rãi trong tất cả các lĩnh vực liên quan đến số liệu, từ tài chính, ngân hàng, mạng xã hội, dự báo thời tiết… Hiện có rất nhiều công ty đang sử dụng R trong phân tích, dự báo, thống kê và biểu đồ. Có thể kể đến các công ty dưới đây:

  • Facebook : Sử dụng R trong phân tích trạng thái status của người dùng
  • Ford : Sử dụng R cho phân tích và chiến lược ra quyết định dựa trên phân tích
  • Kick Starter – sử dụng R trong trực quan hóa kết quả gọi vốn

Và còn rất nhiều các công ty khác nữa như , National Weather Service – sử dụng R trong dự báo lũ lụt, hay Uber – sử dụng R trong phân tích và tính toán thống kê…

Tóm lại, R là một công cụ rất mạnh và đang được các nhà phân tích cũng như các công ty hàng đầu thế giới sử dụng trong phân tích, dự báo và trực quan hóa dữ liệu. Với các bạn đang làm trong lĩnh vực phân tích, thống kê, dự báo, BI, đặc biệt trong các lĩnh vực tiếp cận và xử lý nhiều số liệu, chắc chắn R là một công cụ không thể bỏ qua.